生成式人工智能音频的进步:高 SNR MEMS 麦克风的关键作用
生成式人工智能音频的进步:高 SNR MEMS 麦克风的关键作用
2024年12月9日修改
在当今科技飞速发展的时代,人工智能(AI)的应用已经渗透到我们生活的各个领域。其中,生成式人工智能音频的发展尤为引人注目,而高信噪比(SNR)的微机电系统(MEMS)麦克风在这一领域中扮演着至关重要的角色。
随着人工智能在文本和图像生成领域的突破,人们对其在音频领域的应用也充满了期待。音频应用如语音转文本(STT)和自然语言处理(NLP)等,正从这项技术中受益。然而,当前的系统仍存在诸多不足,如语音识别会因口音、语言不完美或简单的背景噪音而出现错误,语音输出也显得较为机械,与真实声音存在明显差异。新一代的生成式人工智能音频有望带来一场技术革命,改善人类与机器的交互体验。
根据高通的《2023 年声音状况报告》,人们每天佩戴耳机的时间不断增加,音频质量正成为购买耳机的关键因素。越来越多的人对“高级音频功能”感兴趣,如空间音频、清晰的语音通话和较低的音频延迟等。同时,语音助手在各种设备中的广泛应用,也使得语音识别和语音生成等重要音频功能变得越发重要。预计到 2028 年,配备集成语音助手的设备市场将以 5%的年复合增长率增长,达到每年 30 亿台的销售量。
生成式人工智能音频的一个关键应用是语音转文本,其利用人工智能实现了高速和高精度的转换。与文本转语音相结合,STT 在消费电子领域具有许多潜在应用,如在笔记本电脑或智能手机中的应用,以及会议的自动转录等。NLP 是生成式语音人工智能的基础组成部分,其目标是理解口语的含义,而这需要音频录制尽可能准确地捕捉纯净的声音,将背景噪音、杂音和其他外部影响降至最低。换句话说,麦克风和信号处理对 NLP 的质量有显著的贡献。
在设计音频人工智能设备时,麦克风起着关键作用,而 MEMS 麦克风因其高性能、低功耗和小尺寸的特点,在众多麦克风中脱颖而出。MEMS 麦克风由三个部分组成:实际的传感元件、专用集成电路(ASIC)和封装。为了在困难条件下识别语音的细微差别,麦克风的关键特性是 SNR,它描述了麦克风的固有自噪声与标准参考信号之间的差异。
英飞凌在高性能 MEMS 麦克风的开发方面有着悠久的历史。其密封双膜(SDM)技术是一项革命性的 MEMS 麦克风技术,该技术利用两个膜和一个带电的定子创建一个密封的低压腔和一个差分输出信号,实现了高达 75dB 的超高 SNR 和极低的失真,并在麦克风层面提供了高入口保护(IP57)。英飞凌的 XENSIV™ IM73A135 实现了 73dB 的 SNR,是业内 MEMS 麦克风的最佳值之一,适用于要求苛刻的应用,如音频 AI。此外,该麦克风的 4×3-mm²封装允许声音捕捉单元的小型化,并能轻松集成到各种设备中。XENSIV™ MEMS 麦克风的另一个优点是其低能耗,这对于许多便携式和电池供电的设备来说尤为重要,有助于延长电池寿命。由于其紧凑的尺寸、成本效益和低功耗,一个设备中可以使用多个麦克风,从而检测和减少背景噪音,提高语音识别能力。
高 SNR MEMS 麦克风的市场正在显著增长,其增长速度远高于低 SNR 麦克风。例如,Omdia 预计,到 2027 年,消费者领域中 SNR 高于 64dB 的 MEMS 麦克风的年复合增长率将达到 8.7%,单位销售量将接近 30 亿。英飞凌一直在关注这一趋势,并不断致力于开发更高性能的 MEMS 麦克风,以满足音频 AI 等应用的需求。
总之,在生成式人工智能音频领域,高 SNR MEMS 麦克风的集成起着关键作用。随着 AI 改变像 STT 这样的音频应用,MEMS 麦克风通过捕捉细微的语音数据做出贡献。这一进步增强了语音识别能力,使其在从消费电子到为视障人士提供的辅助功能等各个领域中变得更加自然和适用。凭借优秀的 MEMS 麦克风的优势,音频 AI 将在未来几年开拓更多的应用,包括语音克隆、情感识别等。英飞凌技术公司在内部开发和生产 MEMS 麦克风的所有组成部分,能够轻松地为每个应用确定 MEMS、ASIC 和封装的最佳组合,以实现最佳性能,为不断发展的语音 AI 领域中的用户体验提升和更广泛的应用铺平道路。