加载失败,
ChatGPT 是一个好的因果推理器吗?
ChatGPT 是一个好的因果推理器吗?
2024年8月12日修改
📌
论文:Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation.
作者:高靖龙,丁效,秦兵,刘挺
1. 背景和动机
因果推理能力对于许多自然语言处理(NLP)应用至关重要。最近的因果推理系统主要基于经过微调的预训练语言模型(PLMs),如BERT [1] 和RoBERTa [2]。它们的因果推理能力依赖于使用大量标注数据的监督训练,然而ChatGPT能够在不依赖标注数据的前提下在各种NLP任务中取得良好表现。
在本文中,我们进行了全面的评估,以展示ChatGPT的因果推理能力,涉及四个最先进的(SOTA)版本的ChatGPT:text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-4。首先,我们利用事件因果关系识别(ECI)任务作为因果推理基准。如图1所示,ECI任务旨在确定一个句子中的两个事件之间是否存在因果关系。这要求ChatGPT不仅要掌握常识知识,还要理解由多个实体和事件组成的复杂上下文。最后,ChatGPT必须综合所有信息来识别因果关系。
其次,我们采用因果发现(CD)任务进行评估,这要求ChatGPT具有更广泛和更专业的知识,但不需要考虑复杂的上下文。如图1所示,我们使用了两种CD任务格式:1)多项选择,旨在从两个选项中选择输入事件的原因或效果;2)二分类,旨在确定两个输入事件之间是否存在因果关系。对于二分类设置,我们将每个多项选择示例转换为两个二分类示例,即将输入事件与两个选项中的每一个进行配对。我们的实验表明,二分类是评估ChatGPT更可靠的方法。
此外,如图1所示,我们进行因果解释生成(CEG)任务,以测试ChatGPT是否能为事件间的因果关系生成解释。这通常用于测试机器是否真正理解因果关系背后的原理,这对于构建可靠的因果推理系统至关重要。
附件不支持打印
加载失败,