输入“/”快速插入内容

Llama 3 开启规模游戏的下一篇章

2024年7月19日修改
📌
作者: 是莫尔索
公众号: 莫尔索随笔
符尧大佬的最新文章,内容非常干,非常值得一读,目前,文本数据的规模可能已经达到了瓶颈,因为大部分易获取的网络文本数据(如 Common Crawl、Github、Arxiv 等)已经被广泛利用。规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束,该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。
本文译自 Llama 3 Opens the Second Chapter of the Game of Scale ([1]),点击阅读原文获得更好阅读体验。
💡 主要观点
由于大多数简单的 Web 文本(Common Crawl、Github、Arxiv 等)现已用完,文本数据的扩展可能会达到上限。
当然,还会有新的文本数据来源,比如更广泛地搜索互联网、扫描图书馆藏书以及合成数据。但要再增加一个数量级是相当具有挑战性的——更有可能的是,它们只是在当前数量级内增量。
游戏的下一篇章从多模态,特别是统一视频语言生成模型开始,因为只有视频数据才能带来数量级的增长。
然而,坏消息是,视频数据似乎无法提高模型的推理能力——回想一下,推理是标志着强大模型的第一关键能力。
但好消息是,视频数据增强了模型与现实世界的联系,并展现出成为神经世界模型的强大潜力(而不是像塞尔达传说那样的硬编码物理引擎),这为从模拟的物理反馈中学习提供了可能。
从 X 个反馈中扩展强化学习似乎是继续增加模型推理能力最有前景的方向,这里的 X 代表人类、AI 和环境的反馈。
就像 AlphaGo Zero 在围棋上超越人类水平一样,自我对弈和与环境互动可能是超人类生成模型(super-human generative models)的方向。使模型实时地从反馈中进行迭代学习(而不是单次离线优化)可能导致不断增强的推理能力。
规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束。该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。
1.
Llama 3 的表现如何?
相当不错
对于基础模型,我们通过检查 MMLU、MATH、GPQA 和 BBH 等指标来衡量高级知识和推理能力,排行榜如下:
LLaMA 3 的 70B 模型有一个突出的特点,那就是它的性能远远超过了其他同等级的 70B 模型(这些模型的 MMLU 得分通常约为 70+),并且它已经迈入了 MMLU 得分超过 80 分的前沿模型行列。
Llama 3 70B 能够取得如此出色的 MMLU 可能有两个原因:
它使用了15T 的 token 用于训练([3]),远远超过其他模型,特别是混合代码和 arxiv 数据([4])可以提高推理能力。
它使用与基准测试相关的持续预训练数据([5])(例如,Llemma([6])/ MetaMath([7])/ Mammoth([8]))来提升基准测试。然而,当分数达到 80 分以上时,要进一步提升在 MMLU 数据集的表现将会非常困难,尽管并非不可能——这个数据集本身难度就很大。
Chat 版本在LMSYS([9])上看起来也不错。
LMSYS 排行榜
但请注意,在 LLaMA 3 刚发布后,出现了明显的分数提升——因为根据文本模式,很容易判断哪个答案是 LLaMA 3 提供的——导致其开始排名约为第 3,但现在 Elo 评分逐渐下降。然而,你可以看到置信区间(+9/-11)比其他模型(+5/-5)大得多,因此它的排名可能会继续下降。(译注:推荐阅读Elo 评分系统评估 LLM 介绍([10]),了解 LMSYS 排位评分机制
Llama 3 的初始排行榜以很少的票数和较高的方差攀升
老实说,进行性能美化和分数提升是完全没有必要的——它已经是一个相当好的模型——这样做可能会提高它在公众中的声誉(或者不会),但肯定会损害它在专业人士中的声誉。再次强调,它已经是最好用的公开模型了。
我猜测,最终它可能会稳定在 GPT-4 0314 的 Elo 评分 1180 左右——大约是 Claude 3 Haiku 的性能表现(再次强调,已经非常好了)。
2.
文本数据规模的极限
概率已经在这里了。正如我们所观察到的,GPT-4 Turbo、Gemini Ultra、Claude 3 Opus、Llama 3 400B 400 亿参数模型的性能大致处于同一水平(MMLU 基准测试得分大约在 85 分左右)。为了继续扩大文本规模,我们需要更多的数据,问题在于是否有可能在 Llama 3 的 15 万亿个 token 的基础上大幅增加文本数据量。
以下是一些潜在的新数据规模的方向,按照其可能性排名:
Common Crawl 仅涵盖了互联网的一部分([11])