谈谈对 Llama3的个人看法

2024年7月15日修改
作者:张俊林 | NewBeeNLP
💡
LLAMA-3的发布是大模型开源届的大事,蹭下热度,在这里谈下有关LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法
一、LLAMA-3的基本情况
模型结构与LLAMA-2相比没有大的变动,主要变化一点在于Token词典从LLAMA-2的 32K拓展到了128K ,以增加编码效率;另外一点是引入了 Grouped Query Attention (GQA) ,这可以减少推理过程中的KV缓存大小,增加推理效率;还有一点是输入上下文长度从4K拓展到了8K,这个长度相比竞品来说仍然有点短。
最重要的改变是 训练数据量的极大扩充 ,从LLAMA-2的2T Tokens,扩展了大约8倍到了15T Tokens,其中代码数据扩充了4倍,这导致LLAMA-3在代码能力和逻辑推理能力的大幅度提升。15 T token数据那是相当之大了,传闻中GPT 4是用了13T的Token数据。
LLAMA-3分为大中小三个版本,小模型参数规模8B,效果比Mistral 7B/Gemma 7B略好基本持平;中等模型参数规模70B,目前效果介于ChatGPT 3.5到GPT 4之间;大模型400B,仍在训练过程中,设计目标是多模态、多语言版本的,估计效果应与GPT 4/GPT 4V基本持平,否则估计Meta也不好意思放出来。
LLAMA-3并未如很多人预期的那样,采取MOE结构,这也很正常。MOE的主要作用是降低模型训练及推理成本,从效果上比较的话,同等规模的MOE是肯定干不过Dense模型的。当然,如果模型规模大了,怎么降低推理成本方面可能要多花心思。
感觉LLAMA-3制作8B模型的思路是非常非常正确的。对于小模型来说,如果你固定住模型大小,那么只要持续增加高质量数据,那么模型效果肯定会持续提升,这个其实从2021年发表的Chinchilla law的论文就能得到这个结论。一般模型大小乘以20,就是Chinchilla law对应的最优训练数据量,比如对于8B模型,160B训练数据对应最优Scaling law。但是,我们不能机械地理解和应用Scaling law,从Chinchilla的论文实验数据可以看出,还有另外两条路提升模型性能,尽管它不是训练最优的。一个是固定住模型大小,持续增加训练数据,模型效果会持续变好,只要你有源源不断的新数据能加进来,那么小模型就能效果持续变好;另外一个是固定住训练数据量,那么你持续放大模型参数规模,同样的,模型效果也会越来愈好。如果我们把按指定比例同时增加训练数据和模型容量叫做“Optimal Chinchilla Law”,那么这两种做法可以被称为“Sub-optimal Chinchilla Law”。
从上面可以看出,到2025年下半年之前,我们仍然可以走目前的Scaling law的路子,一般是同时增加数据和模型规模,来快速提升模型能力。到2025年下半年,很可能到时候已经无法找到大量新数据了,那么那时候,需要“合成数据”技术有突破,能靠机器自己产生新的训练数据,否则的话……那么到时候是否模型能力就无法提升了呢?也不是,那时候就只能在不增加训练数据的情况下,只增加模型规模,原则上模型能力是能继续提升的。只是提升的效率不如目前这种同时增加训练数据和模型规模那么快而已。
二、开源与闭源
Meta是目前大模型开源届的中流砥柱,目前判断LLAMA-3系列都会开源,包括400B的模型也会在几个月后开源出来,这意味着我们会拥有效果与GPT 4基本持平的开源大语言模型,这对于很多复杂应用来说是个很好的消息(当然400B规模的模型太大,这是个实际问题)。
如果Meta 的LLAMA-3系列全面开源,甚至之后的LLAMA-4也持续开源(目前看这个可能性是较大的,Meta的开源决心比较大,相比而言,谷歌还是决心不太够,商业利益考虑更多些),那么国内应该重视研究如何将LLAMA系列更好中文化的相关技术(因为一些原因,LLAMA专门把中文能力弱化了,但是这其实不是大问题。做好的中文模型并不一定需要特别大量的中文数据,比如GPT 4),包括扩充中文Token词典、用中文训练数据低成本地进行继续预训练、有害信息的去除以通过审查等。这样随着Meta未来不断发布能力更强的新版本模型,国内有可能出现如此局面:通过LLAMA中文化得到的超强大模型(包括语言模型及多模态模型),出现的时间节点甚至快于绝大多数国内发布的最强大模型,包括闭源及开源大模型。