谷歌开发语音转移 AI 助力恢复声音

在当今科技飞速发展的时代,人工智能的应用领域不断拓展,为人们的生活带来了诸多便利和创新。近日,谷歌的一项研究成果引起了广泛关注——谷歌研发出了一种零样本语音转移(VT)模型,为那些因疾病或其他原因失去声音的人们带来了希望。
该模型具有重要的意义和价值。对于那些如帕金森病或肌萎缩侧索硬化症(ALS)患者等失去声音的人来说,这个模型可以让他们使用文本到语音(TTS)设备来复制自己原来的声音,从而重新获得表达自己的能力。这不仅是技术上的突破,更是对这些患者生活质量的极大提升。
该模型的工作原理具有创新性。它支持少样本和零样本操作,只需要几秒钟的参考语音音频就能复制一个声音。通过扬声器编码器使用语音音频的频谱图来创建声音的嵌入向量表示,然后将其传递到谷歌模块化 TTS 系统的解码器阶段。这种设计使得即使是那些在失去声音之前可能没有存储多个音频样本的人,也能够受益于这项技术。
此外,该模型还具有跨语言的能力,这是其另一个显著优势。在实验中,谷歌团队发现该系统可以在多种语言中工作,能够生成参考发言人不会说的语言的语音。这为全球范围内的用户提供了更广泛的应用可能性,打破了语言的界限。
谷歌的这项新 VT 模型是基于一个 TTS 系统,该系统在多语言的“发现”数据上进行训练,包括纯文本数据、语音 - 文本配对数据和未转录的语音数据。这种多语言数据的训练使得系统能够在超过 100 种语言中进行 TTS 操作。系统使用文本编码器将文本数据转换为令牌序列,然后传递到持续时间预测器,创建与输出音频的预期持续时间相匹配的不同序列,最后传递到解码器应用声学特征,VT 就是由这个解码器完成的。
谷歌还进行了一系列实验来验证该模型的有效性。在实验中,人类评委被给予一对音频样本,一个来自真实人类发言人(“参考”语音),一个由 VT 模型生成。评委们被要求判断这些样本是否来自同一发言人,结果有 76%的时间评委们认为它们是。在另一个实验中,评委们是英语以外语言的母语人士,音频对包括英语的参考语音和评委母语的生成语音,结果有 73%的时间评委们认为发言人是相同的。
人工智能驱动的语音转移是一个活跃的研究课题,InfoQ 最近报道了几个 VT 系统。2023 年,InfoQ 报道了微软的 VALL - E,它可以在三秒的音频记录后复制一个声音;Meta 的 Voicebox,它可以用六种语言产生语音,并可以编辑和去除语音记录中的噪音;以及谷歌的 AudioPaLM,它可以进行 TTS、自动语音识别(ASR)和语音到语音翻译(S2ST)以及语音转移。今年早些时候,InfoQ 还报道了亚马逊的 BASE TTS,它支持语音克隆。
然而,AI 模型能够克隆声音的能力也引发了对滥用的担忧。在谷歌的新 VT 模型中,研究人员在输出中添加了音频水印:“合成音频波形内的难以察觉的信息”,可以通过软件检测到。这一措施有助于防止模型的滥用,保障了技术的合理使用和安全性。
总的来说,谷歌开发的语音转移 AI 是一项具有开创性的技术,它为恢复声音提供了新的可能性,同时也为人工智能在语音领域的应用开辟了新的道路。然而,我们也需要在技术发展的过程中,充分考虑到潜在的问题和风险,采取相应的措施来确保技术的合理使用和社会的安全。相信在未来,随着技术的不断完善和发展,语音转移 AI 将为更多的人带来福音,让他们重新找回自己的声音,更好地融入社会生活。