饮鸩止渴？LLM训练要不要过采样/训多个epoch

2024年7月24日修改

原文：https://zhuanlan.zhihu.com/p/671634...

目前已经有很多paper论证了数据量（尤其在pretrain阶段）对LLM的重要性，然而数据、尤其是高质量数据往往可遇不可求，因此过采样或训练多个epoch就成了缓解data hungry的常见手段。但是这种repeat究竟会对LLM带来什么影响？

附件不支持打印

common.docs_name - LarkCCM_Docs_Menu_Image

论文链接：

To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis

01 背景

众所周知，为了缓解LLM的data hungry，pretrainTokens的量级一直是目前LLM迭代、更新的最重要因素之一，然而尤其在垂域适配时，优质的数据往往可遇而不可求，因此repeat就成为了缓解hungry的最直接手段。这篇论文主要探讨了pretrain阶段repeat对LLM带来的影响，笔者尝试以本篇论文为主干，结合相关文章和笔者的个人见解，对pretrain、SFT阶段repeat的影响做进一步分析。

02 实验设置

作者基于T5及C4数据进行pretrain实验，验证不同repeat下模型的效果，为了方便阅读和理解，笔者将文中提及的multi-epoch training和的过采样，统一称为repeat。

03 LLM易受repeat影响：过拟合并性能下降

3.1 repeat会导致score下降

为验证repeat对模型带来的影响，作者在确保trainedTokens相同的前提下，训练、对比了不同repeat程度下LLM的MLM准确率。具体的，假设从C4随机采样、用于pretrain的tokens数为 T T ，pretrain阶段repeat的次数为 R R ，作者实验的3组配置为： (T,R)={(235,1),(229,26),(227,28)} (T, R)=\{(2^{35},1),(2^{29}, 2^{6}),(2^{27}, 2^{8})\} ，以确保每个方案下都训练了 T∗R=235 T*R=2^{35} 个tokens。

实验结果如下图，MLM准确率随着repeat次数的增加呈下降趋势，但以笔者拙见，由于缺乏 (229,26) (2^{29},2^6) 和 (229,20) (2^{29},2^0) 的对比实验，并无法确定token-crisis下，repeat能否在一定程度上缓解token-crisis问题。

附件不支持打印

饮鸩止渴？LLM训练要不要过采样/训多个epoch​

饮鸩止渴？LLM训练要不要过采样/训多个epoch