AI 语音合成

1.
基础概念
AI 生成的音乐正在改变流行音乐的前景并吸引数百万新听众,它正被用于创作新音乐、分析听众数据,甚至生成个性化播放列表。那么怎么制作一个 AI 音乐,甚至做一个类似 AI 孙燕姿的音乐呢,可以接着往下看——
2.
关键技术
2.1
深度伪造技术
所谓深度伪造技术(deepfakes),是一种利用 AI 程序和深度学习算法实现音视频模拟和伪造的技术,投入深度学习的内容库越大,合成的视音频真实性越高,甚至可以达到以假乱真的程度。
AI 翻唱
粉丝们会通过 Stems 音轨分离工具将人声与原始歌曲分离,再使用人声转换模型将人声转换成另一位明星的风格,然后将新的人声轨道与原始作品重新拼接在一起。Diff-SVC 就是一种特别流行的用于此目的的语音传输模型。
AI 孙燕姿是怎么做的?
歸臧写的教程是我看过的最通俗易懂的教程了,推荐一下:
按照此手把手的教程来操作,你也可以生成你所喜爱的歌手音乐。但请注意版权问题,请勿侵犯他人音乐版权。
🎵 项目主要使用 So-VITS-SVC 4.0,可以在 Github 上找到该项目
📹 推荐的两个整合包视频教程分别是羽毛布団和领航员未鸟。
🎧 模型使用分为原始声音处理、推理过程和音轨合并三个部分。
🔊 使用 UVR_v5.5.0 软件处理声音,保留人物的干声。
🖥️ 运行整合包的 Web UI 进行声音推理,需要将模型文件和配置文件放置正确的文件夹下。
➗ 分割后的素材尽量不要超过显存大小,使用【slicer-gui】软件进行分割。
🎉 最终得到的处理好的人声素材可以用于训练模型。
3.
主要产品和案例研究