输入“/”快速插入内容

ChatGPT-O1 大型语言模型的推理学习

2024年9月18日修改

2024年9月17日创建

2841

3066

引言

OpenAI o1 在编程竞赛问题（Codeforces）中排名第89百分位，在美国数学奥林匹克预选赛（AIME）中位列全美前500名，并在物理、生物和化学问题的基准测试（GPQA）中表现出超越人类博士水平的准确性。虽然让这个新模型像当前的模型一样易于使用的工作仍在进行中，我们已经发布了这个模型的早期版本——OpenAI o1-preview，以供立即在ChatGPT和受信任的API用户中使用（将在新窗口中打开）。​

我们的大规模强化学习算法通过高度数据有效的训练过程，教会模型如何利用其思维链来进行高效的思考。我们发现，随着更多的强化学习（训练阶段计算）和更多的思考时间（测试阶段计算），o1 的性能会持续提升。扩展这种方法的约束与大型语言模型的预训练有很大的不同，我们正在继续对此进行研究。​

common.docs_name - LarkCCM_Docs_Menu_Image

o1 的性能随着训练阶段和测试阶段计算的增加而稳步提升。

评估

为了突出与 GPT-4o 相比，o1 在推理能力上的改进，我们对模型进行了多样化的人类考试和机器学习基准测试。结果显示，o1 在绝大多数强调推理能力的任务中显著优于 GPT-4o。除非另有说明，我们对 o1 的评估均在最大测试阶段计算设置下进行。​

o1 在具有挑战性的推理基准测试中相比 GPT-4o 有了极大的提升。实心条表示 pass@1 准确率，阴影区域表示使用 64 个样本的多数投票（共识）性能。​

o1 在各种基准测试中均优于 GPT-4o，包括 54/57 的 MMLU 子类别。图中展示了其中的七个以作说明。​
​

在许多强调推理能力的基准测试中，o1 的表现可与人类专家媲美。最新的前沿模型在 MATH 和 GSM8K 上表现极佳，以至于这些基准测试已无法有效区分模型的能力。我们在 AIME（美国数学邀请赛）上评估了 o1 的数学表现，该考试旨在挑战美国最优秀的高中数学学生。在 2024 年的 AIME 考试中，GPT-4o 平均仅解决了 12%（1.8/15）的题目。而 o1 在每道题仅用一个样本的情况下平均解决了 74%（11.1/15）；使用 64 个样本的共识方法，解决率提高到 83%（12.5/15）；当使用学习得来的评分函数对 1000 个样本重新排序时，解决率达到了 93%（13.9/15）。得分 13.9 已跻身全美前 500 名，并超过了参加美国数学奥林匹克的资格线。​

我们还在 GPQA-diamond 这一难度极高的智力基准测试上对 o1 进行了评估，该测试考察化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，我们邀请了拥有博士学位的专家回答 GPQA-diamond 的问题。结果显示，o1 超越了这些人类专家，成为第一个在此基准测试上取得如此成绩的模型。这一结果并不意味着 o1 在所有方面都比博士更胜一筹，而只是表明该模型在某些博士有望解决的问题上更具熟练度。o1 在其他多项机器学习基准测试上也优于现有的最先进水平。启用其视觉感知能力后，o1 在 MMMU 上获得了 78.2% 的成绩，成为首个能够与人类专家相抗衡的模型。此外，它还在 57 个 MMLU 子类别中的 54 个上超越了 GPT-4o。​

思维链

类似于人类在回答困难问题前会长时间思考，o1 在尝试解决问题时也使用“思维链”。通过强化学习，o1 学会优化自己的思维链并改进所采用的策略。它学会识别并纠正自己的错误，学会将复杂的步骤分解为更简单的部分，还学会在当前方法无效时尝试不同的策略。这个过程大大提升了模型的推理能力。​

编程

我们训练了一个模型，该模型在 2024 年国际信息学奥林匹克竞赛（IOI）中取得了 213 分，位于第 49 百分位。该模型以 o1 为基础，并通过进一步训练以提高编程技能。它在 2024 年 IOI 中与人类选手在相同条件下进行比赛，花费了十个小时来解决六个具有挑战性的算法问题，每道题允许提交 50 次。​

对于每个问题，我们的系统生成了许多候选提交，并基于一套测试阶段选择策略提交了 50 个方案。选择策略基于 IOI 公共测试案例、模型生成的测试案例以及一个学习得来的评分函数。如果我们改为随机提交，平均得分将只有 156 分，这表明此策略在竞赛限制下价值近 60 分。​

在放宽提交限制的情况下，模型性能显著提高。当每道题允许 10,000 次提交时，模型的得分达到了 362.14 分，超过了金牌门槛，即使没有使用任何测试阶段选择策略。​

最后，我们通过模拟 Codeforces 举办的编程竞赛来展示该模型的编程能力。我们的评估严格遵循竞赛规则，允许 10 次提交。GPT-4o 在此测试中取得了 808 的 Elo 评级，位于人类竞争者的第 11 百分位。而这个模型远远超越了 GPT-4o 和 o1，达到了 1807 的 Elo 评级，超过了 93% 的竞争者。​

ChatGPT-O1 大型语言模型的推理学习​

ChatGPT-O1 大型语言模型的推理学习