加载失败，

答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思

2024年8月12日修改

机器之心｜阅读原文

转载请联系原作者取得授权

本文第一作者和通讯作者均来自上海算法创新研究院。其中，通讯作者李志宇博士毕业于中国人民大学计算机专业，并曾在阿里巴巴、小红书等互联网公司从事算法落地与研究工作，曾参与了包括千亿级商品知识图谱、用户图谱和舆情图谱的研发工作，累计发表论文四十余篇。李志宇当前在上海算法创新研究院大模型部门（由熊飞宇博士带领）负责整体的技术研发工作。研究院主页：https://www.iaar.ac.cn/

大语言模型（LLM）的迅速发展，引发了关于如何评估其公平性和可靠性的热议。

尽管现有的评估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各种 Benchmark 推动了行业进步，但专注于这些评估框架核心组件可信度或可靠性度量的团队却为数不多。

近日，上海算法创新研究院和中国人民大学的研究团队发布了一篇名为《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的论文。这篇论文深入分析了LLM评估框架的整体流程，重点评估了答案抽取器组件在大模型评估中的可靠性和一致性。

附件不支持打印

加载失败，

答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思​

答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思