输入“/”快速插入内容

【大模型季报】AGI范式大转移：从LLM到self-play RL

2024年9月14日修改

🎉

来源：公众号：张小珺

链接：https://mp.weixin.qq.com/s/MG_aUwTasrXqGn9IbhLP6Q

这是我和广密【全球大模型季报】第四集的文字版。这期2024年Q3季报，提前和大家见面。​

2024年9月会是AGI的一个大月，OpenAI造势已久且绝密的项目“草莓（Strawberry）”揭开它神秘的面纱。此外，Anthropic也会推出Claude 3.5 Opus，这两个模型将是AGI进程是否顺利的关键风向标。​

这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。​

本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移，self-play RL（强化学习）开启了新赛道。大部分人还没意识到，在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上：self-play RL（自博弈强化学习）。只不过，这个范式转移还未形成共识。Self-play RL到底是什么？它如何有别于传统路径？它能成为继续Scaling Law的一把神奇钥匙吗？​

这期讨论录制于2周前，随着昨日凌晨OpenAI o1模型的发布，以上猜想得到验证，LLM 正式进入self-play RL范式时代。​

这集节目是关于self-play RL的一篇高质量科普，也希望为大模型从业者带来方向性的启发。​

除了self-play RL，我们着重探讨了硅谷一级市场的明星赛道（Coding、视频生成、通用机器人），以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态，并且能持续给大家带来启示。​

common.docs_name - LarkCCM_Docs_Menu_Image

以下为本文目录：

01 Self-play RL开启AGI下半场

02 RL是新的Scaling Law

03 代码、视频生成、机器人

04 What's Next？

本集是《张小珺Jùn｜商业访谈录》和《海外独角兽》的串台节目，文字版由拾象团队整理。​

本集播客首发于腾讯新闻。大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）​

01 Self-play RL开启AGI下半场

Q：最近这两个月你思考最多的问题是什么？

A：语言模型预训练的范式已经到瓶颈了，模型 scaling 的边际效益开始递减。接下来的路线怎么走、这一轮技术革命是否就此卡住？这些问题会很关键。​

【大模型季报】AGI范式大转移：从LLM到self-play RL​

【大模型季报】AGI范式大转移：从LLM到self-play RL