饮鸩止渴?LLM训练要不要过采样/训多个epoch
饮鸩止渴?LLM训练要不要过采样/训多个epoch
2024年7月24日修改
目前已经有很多paper论证了数据量(尤其在pretrain阶段)对LLM的重要性,然而数据、尤其是高质量数据往往可遇不可求,因此过采样或训练多个epoch就成了缓解data hungry的常见手段。但是这种repeat究竟会对LLM带来什么影响?
附件不支持打印
论文链接:
01 背景
众所周知,为了缓解LLM的data hungry,pretrainTokens的量级一直是目前LLM迭代、更新的最重要因素之一,然而尤其在垂域适配时,优质的数据往往可遇而不可求,因此repeat就成为了缓解hungry的最直接手段。这篇论文主要探讨了pretrain阶段repeat对LLM带来的影响,笔者尝试以本篇论文为主干,结合相关文章和笔者的个人见解,对pretrain、SFT阶段repeat的影响做进一步分析。
02 实验设置
作者基于T5及C4数据进行pretrain实验,验证不同repeat下模型的效果,为了方便阅读和理解,笔者将文中提及的multi-epoch training和的过采样,统一称为repeat。
03 LLM易受repeat影响:过拟合并性能下降
3.1 repeat会导致score下降
为验证repeat对模型带来的影响,作者在确保trainedTokens相同的前提下,训练、对比了不同repeat程度下LLM的MLM准确率。具体的,假设从C4随机采样、用于pretrain的tokens数为 T T ,pretrain阶段repeat的次数为 R R ,作者实验的3组配置为: (T,R)={(235,1),(229,26),(227,28)} (T, R)=\{(2^{35},1),(2^{29}, 2^{6}),(2^{27}, 2^{8})\} ,以确保每个方案下都训练了 T∗R=235 T*R=2^{35} 个tokens。
实验结果如下图,MLM准确率随着repeat次数的增加呈下降趋势,但以笔者拙见,由于缺乏 (229,26) (2^{29},2^6) 和 (229,20) (2^{29},2^0) 的对比实验,并无法确定token-crisis下,repeat能否在一定程度上缓解token-crisis问题。
附件不支持打印