【大模型季报】AGI范式大转移:从LLM到self-play RL

2024年9月14日修改
🎉
来源:公众号:张小珺
这是我和广密【全球大模型季报】第四集的文字版。这期2024年Q3季报,提前和大家见面。
2024年9月会是AGI的一个大月,OpenAI造势已久且绝密的项目“草莓(Strawberry)”揭开它神秘的面纱。此外,Anthropic也会推出Claude 3.5 Opus,这两个模型将是AGI进程是否顺利的关键风向标。
这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。
本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移,self-play RL(强化学习)开启了新赛道。大部分人还没意识到,在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)。只不过,这个范式转移还未形成共识。Self-play RL到底是什么?它如何有别于传统路径?它能成为继续Scaling Law的一把神奇钥匙吗?
这期讨论录制于2周前,随着昨日凌晨OpenAI o1模型的发布,以上猜想得到验证,LLM 正式进入self-play RL范式时代。
这集节目是关于self-play RL的一篇高质量科普,也希望为大模型从业者带来方向性的启发。
除了self-play RL,我们着重探讨了硅谷一级市场的明星赛道(Coding、视频生成、通用机器人),以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态,并且能持续给大家带来启示。
附件不支持打印

加载失败,