在一周的时间内,ChatGPT 高级语音模式将向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出。在大家耐心等待的过程中,OpenAI 增加了自定义指令、记忆功能、五种新语音以及改进的口音。它还可以用 50 多种语言说“对不起,我迟到了”。这意味着 ChatGPT 用户,包括 Plus 个人用户和 Teams 小型企业团队用户,可以通过与聊天机器人对话而不是输入提示来使用它。当用户在应用程序上访问语音模式时,他们会通过弹出窗口知道自己已进入高级语音助手模式。
自从苹果的 Siri 和亚马逊的 Alexa 等 AI 语音助手兴起以来,开发人员一直希望使生成式 AI 聊天体验更加类人化。ChatGPT 甚至在语音模式推出之前就已经内置了语音功能,其朗读功能就是其中之一。然而,高级语音模式的理念是为用户提供更类人的对话体验,这也是其他 AI 开发人员想要效仿的概念。
Hume AI,一家由前 Google Deepminder Alan Cowen 创办的初创公司,发布了其情感语音界面的第二版,这是一个类人语音助手,可以根据某人的语音模式感知情绪,开发人员可以通过专有 API 使用它。法国 AI 公司 Kyutai 在 7 月发布了开源 AI 语音助手 Moshi。谷歌也通过 Gemini Live 为其 Gemini 聊天机器人添加了语音,旨在追赶 OpenAI。据路透社报道,Meta 也在开发听起来像受欢迎演员的语音,以添加到其 Meta AI 平台中。OpenAI 表示,它正在将 AI 语音广泛提供给其平台上的更多用户,将该技术带给比其他公司更多的人。
伴随着延迟和争议
然而,AI 语音实时对话并以适当的情感做出响应的想法并不总是被很好地接受。OpenAI 在将语音添加到 ChatGPT 中的尝试从一开始就存在争议。在其 5 月宣布 GPT - 4o 和语音模式的活动中,人们注意到其中一种语音 Sky 与女演员斯嘉丽·约翰逊的声音相似。OpenAI 首席执行官 Sam Altman 在社交媒体上发布的“她”这个词,让人联想到约翰逊为一部电影中的 AI 助手配音,这一争议引发了人们对 AI 开发人员模仿知名个人声音的担忧。