输入“/”快速插入内容

OpenAI 为美国 ChatGPT Plus 和 Team 用户推出类人高级语音模式

2024年12月9日修改
OpenAI 终于在最初向公众展示四个月后,将其新的类人会话语音界面“ChatGPT 高级语音模式”带给了除最初的小型测试组和等待名单之外的用户。OpenAI 的 ChatGPT Plus 和 Team 计划的所有付费订阅者都将获得新的 ChatGPT 高级语音模式的访问权限,不过该访问权限将在接下来的几天内逐步推出,首先在美国可用。下周,该公司计划向其 Edu 和 Enterprise 计划的订阅者提供 ChatGPT 高级语音模式。
此外,OpenAI 为语音助手增加了存储“自定义指令”的能力,以及用户希望其表现出的行为的“记忆”,这与今年早些时候为 ChatGPT 文本版本推出的功能类似。并且,今天还推出了五种新的不同风格的语音:Arbor、Maple、Sol、Spruce 和 Vale,加上之前可用的四种语音 Breeze、Juniper、Cove 和 Ember,用户可以使用 ChatGPT 较旧的、不太先进的语音模式与这些语音进行交流。但 OpenAI 没有为新语音提供语音样本。
在一周的时间内,ChatGPT 高级语音模式将向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出。在大家耐心等待的过程中,OpenAI 增加了自定义指令、记忆功能、五种新语音以及改进的口音。它还可以用 50 多种语言说“对不起,我迟到了”。这意味着 ChatGPT 用户,包括 Plus 个人用户和 Teams 小型企业团队用户,可以通过与聊天机器人对话而不是输入提示来使用它。当用户在应用程序上访问语音模式时,他们会通过弹出窗口知道自己已进入高级语音助手模式。
该公司表示:“自 alpha 版本以来,我们利用所学知识改进了 ChatGPT 最受欢迎的外语口音,以及整体对话速度和流畅性。您还会注意到高级语音模式的新设计,带有一个动画蓝色球体。”这些更新仅在 GPT - 4o 模型上可用,而不是最近发布的预览模型 o1。ChatGPT 用户还可以利用自定义指令和记忆功能,确保语音模式根据他们的偏好进行个性化设置,并对所有对话做出响应。
AI 语音聊天竞赛
自从苹果的 Siri 和亚马逊的 Alexa 等 AI 语音助手兴起以来,开发人员一直希望使生成式 AI 聊天体验更加类人化。ChatGPT 甚至在语音模式推出之前就已经内置了语音功能,其朗读功能就是其中之一。然而,高级语音模式的理念是为用户提供更类人的对话体验,这也是其他 AI 开发人员想要效仿的概念。
Hume AI,一家由前 Google Deepminder Alan Cowen 创办的初创公司,发布了其情感语音界面的第二版,这是一个类人语音助手,可以根据某人的语音模式感知情绪,开发人员可以通过专有 API 使用它。法国 AI 公司 Kyutai 在 7 月发布了开源 AI 语音助手 Moshi。谷歌也通过 Gemini Live 为其 Gemini 聊天机器人添加了语音,旨在追赶 OpenAI。据路透社报道,Meta 也在开发听起来像受欢迎演员的语音,以添加到其 Meta AI 平台中。OpenAI 表示,它正在将 AI 语音广泛提供给其平台上的更多用户,将该技术带给比其他公司更多的人。
伴随着延迟和争议
然而,AI 语音实时对话并以适当的情感做出响应的想法并不总是被很好地接受。OpenAI 在将语音添加到 ChatGPT 中的尝试从一开始就存在争议。在其 5 月宣布 GPT - 4o 和语音模式的活动中,人们注意到其中一种语音 Sky 与女演员斯嘉丽·约翰逊的声音相似。OpenAI 首席执行官 Sam Altman 在社交媒体上发布的“她”这个词,让人联想到约翰逊为一部电影中的 AI 助手配音,这一争议引发了人们对 AI 开发人员模仿知名个人声音的担忧。
该公司否认参考了约翰逊,并坚称无意聘请声音与他人相似的演员。该公司表示,用户仅限于使用 OpenAI 的九种语音。它还表示,在发布之前对其安全性进行了评估。“我们与外部的红队成员一起测试了该模型的语音功能,他们总共会说 45 种不同的语言,代表了 29 个不同的地区,”该公司在向记者发布的公告中表示。然而,OpenAI 将 ChatGPT 高级语音模式的推出从最初计划的 6 月下旬推迟到“7 月下旬或 8 月初”,然后仅向宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 等 OpenAI 选定的初始用户推出,理由是需要继续进行安全测试或“红队测试”语音模式,以避免其在潜在的欺诈和不当行为中被使用。
显然,该公司认为现在已经做了足够的工作来更广泛地发布该模式,这也符合 OpenAI 最近更为谨慎的做法,即与美国和英国政府携手合作,并允许他们在推出新模型(如 o1 系列)之前进行预览。