输入“/”快速插入内容

【大模型季报】AGI范式大转移:从LLM到self-play RL

2024年9月14日修改
🎉
来源:公众号:张小珺
这是我和广密【全球大模型季报】第四集的文字版。这期2024年Q3季报,提前和大家见面。
2024年9月会是AGI的一个大月,OpenAI造势已久且绝密的项目“草莓(Strawberry)”揭开它神秘的面纱。此外,Anthropic也会推出Claude 3.5 Opus,这两个模型将是AGI进程是否顺利的关键风向标。
这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。
本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移,self-play RL(强化学习)开启了新赛道。大部分人还没意识到,在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)。只不过,这个范式转移还未形成共识。Self-play RL到底是什么?它如何有别于传统路径?它能成为继续Scaling Law的一把神奇钥匙吗?
这期讨论录制于2周前,随着昨日凌晨OpenAI o1模型的发布,以上猜想得到验证,LLM 正式进入self-play RL范式时代。
这集节目是关于self-play RL的一篇高质量科普,也希望为大模型从业者带来方向性的启发。
除了self-play RL,我们着重探讨了硅谷一级市场的明星赛道(Coding、视频生成、通用机器人),以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态,并且能持续给大家带来启示。
以下为本文目录:
01 Self-play RL开启AGI下半场
02 RL是新的Scaling Law
03 代码、视频生成、机器人
04 What's Next?
本集是《张小珺Jùn|商业访谈录》和《海外独角兽》的串台节目,文字版由拾象团队整理。
本集播客首发于腾讯新闻。大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
01 Self-play RL开启AGI下半场
Q:最近这两个月你思考最多的问题是什么?
A:语言模型预训练的范式已经到瓶颈了,模型 scaling 的边际效益开始递减。接下来的路线怎么走、这一轮技术革命是否就此卡住?这些问题会很关键。