加载失败,

大模型的幻觉现象介绍

2024年8月12日修改
哈工大SCIR|阅读原文
转载请联系原作者取得授权
📌
原创作 者 : 孙孟周
转载须标注出处:哈工大SCIR
引言
随着市面上各种大模型的出现,研究者们发现大模型会“产生与某些来源无关的荒谬或不真实的内容”的倾向,大模型的开发者们将这一现象叫做幻觉(Hallucination)。由于幻觉现象的存在,目前的大模型依旧无法在医疗和法律等需要高度严谨回答的领域广泛应用,为了减轻大模型产生的幻觉现象,研究者们采用了包括事实检测,in-context learning,知识微调 [15] 等多种手段,已上线的gpt-4等大模型更是在幻觉高发段训练模型拒绝回答幻觉高发的问题。
然而,有些研究者对大模型的幻觉现象持不同看法。他们认为,幻觉现象不仅是一个问题,也可以视为一种潜在的能力。这种能力可以帮助大模型生成一些出人意料的有趣答案,比如用于数据集的扩展生成或进行创新性的问题回答。从这个角度来看,研究和利用幻觉现象可能会对模型的训练研究产生积极影响。无论是作为一种能力,还是一种挑战,大模型的幻觉现象都是我们在提升模型能力和应用实践中必须面对的问题。
幻觉现象的定义、产生与危害
在NLP之外的一般背景下,幻觉是一种特定类型的感知,在心理学中,幻觉被定义为"一个清醒的个体在没有来自外部世界适当刺激的情况下所体验的感知"。简单来说,幻觉是一种感觉真实的虚假感知。"文本生成任务中,有时会生成不忠实或无意义的文本"这种不良现象与心理学上的这种幻觉具有相似的特征。虽然幻觉文本不忠实并且无意义,但是由于大模型强大的上下文生成能力,这些文本的可读性往往非常高,让读者以为它们是基于提供的上下文,尽管实际上很难找到或验证这种上下文真实存在。这种现象与难以与其他“真实”感知区分的心理幻觉类似,一眼看上去也很难捕捉到幻觉文本。
在NLP的背景下,以上对幻觉的定义,即生成的内容是无意义的或对提供的源内容不忠实,显得并不够具体。然而在不同的NLP任务中,幻觉都有着不同的表现形式,本文主要介绍大模型在生成式问答任务上(Generative question answering ,GQA)的具体表现形式。GQA旨在生成一个概括性的答案,而不是从提供的段落中提取一个给定问题的答案。GQA任务是大模型目前主要的任务,因为大模型目前上线后的主要形式就是处理用户提出的许多问题,并且这些问题往往都需要深入的解释,因此这类问题的答案通常非常长,如果模型直接从给出的文本中摘抄答案,回答的整体可读性与应用性会变得很弱。一个GQA系统可以与搜索引擎集成,以实现更智能的搜索,或者与虚拟对话代理结合,以提高用户体验。
大模型幻觉的产生原理目前并没有数学逻辑上的证明,目前较为令人信服的产生猜测是大模型在搜索过程中并没有良好地融合获得的证据。一个GQA系统会首先进行问题相关信息的搜索,把这些搜索到的信息称为“证据”,然后模型再基于检索到的信息生成答案。但是在大多数情况下,检索到的证据来源往往不唯一,用于答案生成的答案经常有多个来源。这些文档可能包含冗余的、互补的或者相互矛盾的信息。因此,模型生成答案时会对多个并不兼容的证据产生疑惑,为保证回答的全面,模型融合证据时会把不同答案的段落进行拼接,以至于生成的答案产生幻觉。
如图1所示,在[5]中北卡罗纳大学和Alexa AI的研究中发现,大模型在多轮对话中会产生图1所示的三种幻觉类型: 无法进行验证的虚拟事实回应,与输入知识不相符的事实不一致回应,以及对于输入中不存在的问题的虚构回应。 这种标签与以前的工作不同,因为在处理开放领域对话中,不是所有回应都需要评估事实正确性,其中创意生成等需要模型创作新文本的任务经常不存在事实是否正确,因此该团队设置了如图1的实验,来验证模型是否会生成幻觉,在图中的例子可以看出,模型把两个不同人的经历和属性混淆了,这也反映了前面对幻觉产生原因的印证,即模型幻觉的产生往往是因为证据过多,无法有效融合。
附件不支持打印

加载失败,