为验证repeat对模型带来的影响,作者在确保trainedTokens相同的前提下,训练、对比了不同repeat程度下LLM的MLM准确率。具体的,假设从C4随机采样、用于pretrain的tokens数为 T T ,pretrain阶段repeat的次数为 R R ,作者实验的3组配置为: (T,R)={(235,1),(229,26),(227,28)} (T, R)=\{(2^{35},1),(2^{29}, 2^{6}),(2^{27}, 2^{8})\} ,以确保每个方案下都训练了 T∗R=235 T*R=2^{35} 个tokens。
Jeremy Howard在 [Can LLMs learn from a single example?] 中给出了另一个典型的案例:LLM在SFT中呈现阶梯状的train_loss曲线,且每次骤降均发生在epoch末尾,具体如下图,Howard认为最直接的原因就是LLM在repeat后产生了过拟合。这个结论还是比较令人吃惊的,不同于论文中64甚至256次的repeat,这意味着模型仅在1+ repeat后就产生了过拟合。