ChatGPT-O1 大型语言模型的推理学习

2024年9月18日修改
2024年9月17日创建
2769
2994
引言
OpenAI o1 在编程竞赛问题(Codeforces)中排名第89百分位,在美国数学奥林匹克预选赛(AIME)中位列全美前500名,并在物理、生物和化学问题的基准测试(GPQA)中表现出超越人类博士水平的准确性。虽然让这个新模型像当前的模型一样易于使用的工作仍在进行中,我们已经发布了这个模型的早期版本——OpenAI o1-preview,以供立即在ChatGPT和受信任的API用户中使用(将在新窗口中打开)。
我们的大规模强化学习算法通过高度数据有效的训练过程,教会模型如何利用其思维链来进行高效的思考。我们发现,随着更多的强化学习(训练阶段计算)和更多的思考时间(测试阶段计算),o1 的性能会持续提升。扩展这种方法的约束与大型语言模型的预训练有很大的不同,我们正在继续对此进行研究。

加载失败,