加载失败,

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

2024年8月12日修改
机器之心|阅读原文
转载请联系原作者取得授权
本文作者来自香港大学和 腾讯 。 作者列表:李沁桐,Leyang Cui,赵学亮, 孔令鹏 ,Wei Bi。其中,第一作者李沁桐是香港大学 自然语言处理 实验室的博士生,研究方向涉及 自然语言生成 和文本推理,与博士生赵学亮共同师从 孔令鹏 教授。Leyang Cui 和 Wei Bi 是 腾讯 高级研究员。
前言
大型 语言模型 (LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的 基准 测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异, 准确率 高达 90% 以上。同时,许多开源模型也展现出了不俗的实力, 准确率 超过 80%。
然而在使用中我们经常会发现,当数学问题稍作改变时,LLMs 可能会出现一些低级错误,如下图所示:
附件不支持打印

加载失败,