加载失败，

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

2024年8月12日修改

机器之心｜阅读原文

转载请联系原作者取得授权

本文作者来自香港大学和腾讯。作者列表：李沁桐，Leyang Cui，赵学亮，孔令鹏，Wei Bi。其中，第一作者李沁桐是香港大学自然语言处理实验室的博士生，研究方向涉及自然语言生成和文本推理，与博士生赵学亮共同师从孔令鹏教授。Leyang Cui 和 Wei Bi 是腾讯高级研究员。

前言

大型语言模型（LLMs）在解决问题方面的非凡能力日益显现。最近，一个值得关注的现象是，这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例，在高难度小学应用题测试集 GSM8K [1] 中表现优异，准确率高达 90% 以上。同时，许多开源模型也展现出了不俗的实力，准确率超过 80%。

然而在使用中我们经常会发现，当数学问题稍作改变时，LLMs 可能会出现一些低级错误，如下图所示：

附件不支持打印

加载失败，

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格​

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格