输入“/”快速插入内容

AI 语音合成

1.
基础概念​

AI 生成的音乐正在改变流行音乐的前景并吸引数百万新听众，它正被用于创作新音乐、分析听众数据，甚至生成个性化播放列表。那么怎么制作一个 AI 音乐，甚至做一个类似 AI 孙燕姿的音乐呢，可以接着往下看——​

2.
关键技术​

2.1
深度伪造技术​

所谓深度伪造技术（deepfakes），是一种利用 AI 程序和深度学习算法实现音视频模拟和伪造的技术，投入深度学习的内容库越大，合成的视音频真实性越高，甚至可以达到以假乱真的程度。​

AI 翻唱

粉丝们会通过 Stems 音轨分离工具将人声与原始歌曲分离，再使用人声转换模型将人声转换成另一位明星的风格，然后将新的人声轨道与原始作品重新拼接在一起。Diff-SVC 就是一种特别流行的用于此目的的语音传输模型。​

AI 孙燕姿是怎么做的？

歸臧写的教程是我看过的最通俗易懂的教程了，推荐一下：

•

•

按照此手把手的教程来操作，你也可以生成你所喜爱的歌手音乐。但请注意版权问题，请勿侵犯他人音乐版权。​

•

🎵 项目主要使用 So-VITS-SVC 4.0，可以在 Github 上找到该项目。

•
📹 推荐的两个整合包视频教程分别是羽毛布団和领航员未鸟。​

•
🎧 模型使用分为原始声音处理、推理过程和音轨合并三个部分。​

•
🔊 使用 UVR_v5.5.0 软件处理声音，保留人物的干声。​

•
🖥️ 运行整合包的 Web UI 进行声音推理，需要将模型文件和配置文件放置正确的文件夹下。​

•
➗ 分割后的素材尽量不要超过显存大小，使用【slicer-gui】软件进行分割。​

•
🎉 最终得到的处理好的人声素材可以用于训练模型。​

3.
主要产品和案例研究​

MusicLM ( Google)

MusicLM 是 Google 的文本转音乐生成器，虽然你还不能使用此工具播放，但 Google 已经发布了音频样本，你可以收听此模型生成的音频样本，结果令人惊叹。​

Jukebox( OpenAI)

该项目使用神经网络生成音乐，包括基本的歌唱，作为各种流派和艺术家风格的原始音频。他们发布了模型权重和代码，以及用于探索生成样本的工具。​

项目地址：

https://openai.com/research/jukebox

AI 语音合成​