输入“/”快速插入内容

ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅

2024年8月12日修改
机器之心|阅读原文
转载请联系原作者取得授权
本篇论文的第一作者是 清华大学 交叉信息院的二年级硕士生许融武。主要指导老师为美国东北大学 Weiyan Shi 助理教授、 清华大学 邱寒助理教授和徐葳教授。
地球是平的吗?
当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。
但是,你有没有想过,如果 AI 被误导性信息 “忽悠” 了,会发生什么?
来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现,他们发现大 语言模型 在误导信息反复劝说下,非常自信地做出「地球是平的」这一判断。
生成式 人工智能 技术的快速发展,为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容,还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战,但目前对这类信息的确切影响仍不十分清楚。然而,可以预见的是,随着技术的发展,虚假信息的生成和传播将会变得更加容易和普遍。
另一方面,大 语言模型 的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受,并在模型生成的输出中反映出来,导致其产生不准确或具有偏见的内容。因此,研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力,这是提升大模型安全和鲁棒性的重要内容之一。
本篇研究就探索了这种有误信息对于大 语言模型 知识信念的影响,研究论文已经被 ACL 2024 接收,并选做大会报告(Oral)。
实验:大模型的 “信念” 测试
研究者们首先构建了一个名为 Farm(Fact to Misinform Dataset)的数据集,包含 1500 个事实性问题及其相关的误导性信息。他们在大 语言模型 的帮助下系统性地构造了更具有说服力的有误信息:首先,他们对原始正确的事实性 QA 进行语义取反或者构造错误答案,随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。
利用这些数据,便可以测试大 语言模型 在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段:初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式,研究者们能够观察到 LLMs 在多轮对话中信念的变化。