输入“/”快速插入内容

基于大语言模型辩论的多智能体协作推理分析

2024年8月12日修改
哈工大SCIR|阅读原文
转载请联系原作者取得授权
📌
论文: Examining Inter-Consistency of Large Language Models Collaboration: An In-depth Analysis via Debate
作者:熊凯 ,丁效,曹艺馨,刘挺,秦兵
转载须标注出处:哈工大SCIR
1. 背景及动机
最近,像 ChatGPT 这样的大型语言模型( LLMs )在一定程度上展现出了通用智能 [1] ,并且 LLMs 已被广泛用作各种应用中的基础模型 [2,3] 。为了解决依稀更复杂的任务,多个 LLMs 被引入来进行协作,不同的 LLMs 执行不同的子任务或同一任务的不同方面 [4,5] 。有趣的是,这些 LLMs 是否拥有协作精神?它们是否能有效并高效地协作,实现一个共同的目标?
图 1: 辩论中的妥协 (a) 和反驳 (b) ,其中 🤖 是正方, 👾 是反方
这篇论文中,我们探讨了多个 LLMs 之间的一致性 (inter-consistency) ,这与现有的大部分研究不同,现有研究主要探讨单个 LLM 内的自我一致性 (intra-consistency 或 self-consistency) 问题 [6,7] 。基于我们的观察和实验,我们强调了 LLMs 协作中的可能存在的两个主要问题。首先, LLMs 的观点很容易发生改变。如图 1 ( a )所示,正方和反方 LLMs 给出了不同的预测结果,而正方很快就妥协并接受了反方的答案。所以, LLMs 到底有多容易改变自己的观点,又有多大程度会坚持自己的观点?其次,当 LLMs 坚持自己的意见时 ( 图 1(b)) ,他们进行协作时是否能在共同目标上达成共识?
受辩论理论 [8] 的启发,我们设计了一个辩论框架 (FORD) ,以系统和定量地研究 LLMs 协作中的模型间不一致问题。基于 FORD ,我们允许 LLMs 通过辩论探索它们自己的理解与其他 LLMs 的概念之间的差异。因此,这些结果不仅能够鼓励 LLMs 产生更多样化的结果,也使得 LLMs 可以通过相互学习实现性能提升。
具体来说,我们以多项选择的常识推理作为示例任务,因为常识推理任务是一类可能性 (plausible) 的任务,每个答案都是可能成立的,只是正确答案成立的可能性更高,所以常识推理任务更适合被用来进行辩论。为此我们制定了一个三阶段的辩论来对齐现实世界的场景:( 1 ) 平等辩论 :两个具有可比能力的 LLMs 之间的辩论。( 2 ) 错位辩论 :能力水平差异较大的两个 LLMs 之间的辩论。( 3 ) 圆桌辩论 :两个以上的 LLMs 之间的辩论。
2. 数据集、LLMs及相关定义
我们在这里统一介绍实验使用的数据集, LLMs ,模型间不一致性的定义,以及使用的基线方法等。
2.1 数据集(常识推理)
表 1 : 7 个常识推理数据的任务类型和大小
NLI [9] :大规模的溯因推理数据集
CommonsenseQA [10] :大规模的常识问答数据集
COPA [11] :小规模的因果推理数据集
e-CARE [12] :大规模的可解释因果推理数据集
Social IQa [13] :有关日常事件的社会影响的常识推理数据集
PIQA [14] :有关物理常识的自然语言推理数据集
StrategyQA [15] :有关隐式推理策略的数据集
数据集的统计信息见表 1 。