为验证repeat对模型带来的影响,作者在确保trainedTokens相同的前提下,训练、对比了不同repeat程度下LLM的MLM准确率。具体的,假设从C4随机采样、用于pretrain的tokens数为 T T ,pretrain阶段repeat的次数为 R R ,作者实验的3组配置为: (T,R)={(235,1),(229,26),(227,28)} (T, R)=\{(2^{35},1),(2^{29}, 2^{6}),(2^{27}, 2^{8})\} ,以确保每个方案下都训练了 T∗R=235 T*R=2^{35} 个tokens。