AI 为何有时会出错以及解决之道的重大进展
AI 为何有时会出错以及解决之道的重大进展
2024年12月6日修改
在 GPT-4 因在标准化测试中表现出色而成为头条新闻的时候,微软的研究人员和合作者们正在对其他 AI 模型进行一种不同类型的测试——一种旨在让模型制造虚假信息的测试。
为了针对这种被称为“幻觉”的现象,他们创建了一个文本检索任务,这个任务可能会让大多数人感到头疼,然后他们跟踪并改进了模型的响应。这项研究带来了一种新的方法,以减少大型语言模型(LLM)偏离给定数据的情况。
这也是微软以安全、可信赖和符合道德的方式开发 AI 的努力的一部分,是其为测量、检测和缓解幻觉现象而创建解决方案的一个例子。“微软希望确保其构建的每个 AI 系统都是您可以信任并能有效使用的,”公司负责可靠 AI 的首席产品官莎拉·伯德(Sarah Bird)说,“我们拥有众多专家和资源投入到这个领域,因此我们认为自己有责任帮助找到如何负责任地使用新 AI 技术的方法,然后让其他人也能够做到这一点。”
从技术上讲,幻觉是“无根据”的内容,这意味着模型改变了它所得到的数据或添加了其中未包含的额外信息。在某些时候,幻觉是有益的,比如当用户希望 AI 创作科幻故事或提供从建筑到编码等各个方面的非传统想法时。但是,许多构建 AI 助手的组织需要它们在诸如医疗总结和教育等场景中提供可靠、有根据的信息,在这些场景中,准确性至关重要。
这就是为什么微软基于开发自己的 AI 产品(如 Microsoft Copilot)的专业知识,创建了一系列全面的工具来帮助解决无根据性问题。公司的工程师们花费了数月时间,通过检索增强生成技术,将 Copilot 的模型与 Bing 搜索数据相结合,这种技术可以在无需重新训练模型的情况下为模型添加额外的知识。Bing 的答案、索引和排名数据有助于 Copilot 提供更准确和相关的响应,以及允许用户查找和验证信息的引用。
“模型在对信息进行推理方面非常出色,但我们认为它不应该是答案的来源,”伯德说,“我们认为数据应该是答案的来源,因此我们解决问题的第一步是为模型带来新鲜、高质量、准确的数据。”
处于生成式 AI 的前沿意味着我们有责任和机会使我们自己的产品更安全、更可靠。微软现在正在通过先进的工具帮助客户实现同样的目标。Azure OpenAI 服务中的“On Your Data”功能帮助组织在企业级安全环境中用自己的数据为其生成式 AI 应用程序提供依据。Azure AI 中提供的其他工具可帮助客户在生成式 AI 生命周期中保护其应用程序。评估服务可帮助客户根据预构建的依据性指标衡量生产中的应用程序的依据性。安全系统消息模板使工程师更容易指示模型专注于来源数据。
该公司还宣布了一种实时工具,用于在访问企业数据的应用程序(如客户服务聊天助手和文档摘要工具)中大规模检测依据性。Azure AI Studio 工具由一个语言模型提供支持,该模型经过微调,可根据来源文档评估响应。微软还在开发一种新的缓解功能,以实时阻止和纠正无根据的情况。当检测到依据性错误时,该功能将根据数据自动重写信息。
“处于生成式 AI 的前沿意味着我们有责任和机会使我们自己的产品更安全、更可靠,并为客户提供我们的工具,”微软负责可靠 AI 的主要产品经理肯·阿彻(Ken Archer)说。
这些技术得到了像微软研究院 AI 前沿实验室的常务董事埃斯·卡玛(Ece Kamar)等专家的研究支持。在公司的道德 AI 原则的指导下,她的团队发表了改进模型响应的研究,并在另一项研究中发现了一种预测幻觉的新方法,该研究考察了模型如何关注用户输入。
“有一个基本问题:它们为什么会产生幻觉?我们是否有办法打开模型并查看它们何时发生?”她说,“我们从科学的角度来看待这个问题,因为如果您了解它们发生的原因,您就可以考虑新的架构,使下一代模型可能不会出现幻觉。”卡玛说,LLM 在互联网训练数据中不太容易获得的事实方面更容易产生幻觉,这使得注意力研究成为理解无根据内容的机制和影响的重要一步。
“随着 AI 系统为人们提供关键任务和信息共享的支持,我们必须非常认真地对待这些系统产生的每一个风险,因为我们正在努力构建未来的 AI 系统,这些系统将在世界上做有益的事情,”她说。
总之,微软在解决 AI 有时会出错的问题上采取了多种措施,从研究到开发一系列工具,以确保 AI 系统能够以安全、可信赖和符合道德的方式运行。这不仅有助于提高 AI 系统的性能和可靠性,也为行业树立了一个积极的榜样,推动整个行业朝着更加负责任的方向发展。同时,通过不断的研究和创新,微软希望能够找到更好的方法来解决 AI 中的幻觉问题,为未来的 AI 发展奠定坚实的基础。