输入“/”快速插入内容

AI 音乐 | 3.19 资讯

2024年3月20日修改
20%
作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!
公众号:智音Brook 2024-03-19 19:02 广东
80%
目录
MusicHiFi:快速高保真立体声声码
SpaIn-Net:空间信息音乐源分离
歌声的自动音高校正
《滚石》杂志:Suno AI 的独家报道
LM2D:歌词和音乐驱动的舞蹈合成
Prompt-Singer:具有自然语言提示的可控歌唱-语音-合成
MusicHiFi:快速高保真立体声声码
传统的音频和音乐生成模型通常通过构建音频的图像表示(例如,梅尔频谱图)然后使用相位重建模型或语音编码器将其转换为音频。这些模型通常生成较低分辨率的单声道音频(例如,16-24 kHz),限制了它们的效果。MusicHiFi 是一种基于生成对抗网络(GAN)的高效立体声音频生成模型,旨在提高音频和音乐生成的质量。
MusicHiFi 包括三个阶段:使用语音编码器(MusicHiFi-V)将低分辨率单声道梅尔频谱图转换为相同分辨率的波形,通过带宽扩展模块(MusicHiFi-BWE)将低分辨率波形转换为高分辨率波形,最后通过单声道到立体声模块(MusicHiFi-M2S)将单声道高分辨率波形上混为立体声音频。每个阶段都使用相同的生成器架构、鉴别器架构、训练目标和模型大小。
在研究中使用 1800 小时的授权器乐音乐数据集进行模型训练。为了全面评估其性能,文中将 MusicHiFi 与 BigVGAN、HiFi-GAN 以及 Aero 等方法进行了细致的比较。评估过程涵盖了一系列客观指标,例如 ViSQOL、Mel-D、STFT-D 和 SI-SDR,以及通过主观听力测试来衡量音质。结果显示,MusicHiFi 在保持快速推理速度的同时,提供了与现有技术相当或更好的音频质量。
SpaIn-Net:空间信息音乐源分离
音乐源分离(MSS)是一个活跃的研究领域,近年来深度学习方法取得了显著进展。文中提出了一种名为 SpaIn-Net 的空间信息条件化机制,该机制通过将立体声源的空间位置信息(以泛音角度表示)融合到深度神经网络(DNN)中,实现了对音乐源分离的增强。
文中探索了多种条件化策略,包括直接使用原始角度值和基于角度的派生特征表示,证明了空间信息在提升 MSS 性能方面的有效性。为了有效地整合立体声音频信号与源的空间信息,我们采用了位置编码技术,这一方法在处理多模态数据时表现出了极高的灵活性和有效性。
文中利用包含 2100 首歌曲和 34 种乐器类别的 Slakh 数据集,设计了一系列实验来评估所提方法的有效性,这些实验涵盖了从简单到复杂的多种乐器源分离任务。实验结果显示,与现有技术相比,该方法在信号失真比(SDR)、源干扰比(SIR)、源伪影比(SAR)以及源图像到空间失真比(ISR)等多个评价指标上均实现了显著提升。特别是在处理包含两个吉他源的混合时,该方法展现出了更为显著的性能优势。
歌声的自动音高校正