中国 AI 论文推出 MiniCPM:通过可扩展训练方法引入创新小型语言模型

2024年12月8日修改
在当今时代,开发具有数万亿参数的大型语言模型(LLMs)成本高昂且资源密集,这使得探索小型语言模型(SLMs)作为更高效的选择引起了人们的兴趣。然而,LLMs 由于其巨大的训练成本和操作效率低下而面临挑战,对其训练机制的理解也较为困难,使得实验成本高昂。此外,将如此大型的模型部署在个人电脑或智能手机等设备上往往不切实际或效率低下。
近期,对 SLMs 的兴趣促使了诸如 Phi 系列、TinyLlama、MobileLLM 和 Gemma 等创新模型的出现。尽管这些模型丰富了 SLM 领域,但它们在两个关键领域仍存在困难:复制 LLMs 的综合能力以及建立对 SLMs 和 LLMs 发展都有益的透明、可扩展的训练方法。
来自清华大学计算机科学与技术系和 Modelbest Inc. 的研究人员推出了 MiniCPM,它包括 12 亿和 24 亿非嵌入参数的变体,在专注于 SLMs 的同时,其性能可与 70 亿 - 130 亿参数的 LLMs 相媲美。他们的方法强调在模型和数据维度上的可扩展性,以用于未来的 LLM 研究。他们利用广泛的模型风洞实验来实现稳定的缩放,并引入了一种 Warmup-Stable-Decay(WSD)学习率调度器用于数据缩放,促进了持续训练和领域适应。这种方法能够有效地研究数据 - 模型缩放规律,并引入了如 MiniCPM-DPO、MiniCPM-MoE 和 MiniCPM-128K 等变体。
余弦学习率调度器(LRS)对于在训练过程中调整学习率至关重要。它在预热阶段后按照余弦曲线逐渐降低学习率,其中一个关键参数 T 表示学习率首次降至最小值的时间点。将 T 设置为总训练步数 S 并不是最优的;T < S 和 T > S 都会产生次优结果。当 T = S 时,余弦 LRS 表现最佳,因为它在高学习率训练阶段更长,并且衰减阶段更彻底,有助于找到全局和局部最优解。取而代之的是,提出了 Warmup-Stable-Decay(WSD)LRS,将训练分为预热、稳定和衰减阶段,以提高性能。
观察结果表明,平均而言,MiniCPM - 2.4B 在 SLMs 中排名最高。它在英语方面的表现与 Mistral - 7B - v0.1 相似,但在中文方面显著超越了它。MiniCPM - 2.4B 在除 MMLU、BBH 和 HellaSwag 之外的大多数领域都优于 Llama2 - 13B,而 MiniCPM - 1.2B 除了在 HellaSwag 方面外,都优于 Llama2 - 7B。一般来说,在知识导向的数据集中,BBH 对 SLMs 来说比 LLMs 更具难度,这表明推理能力更依赖于模型大小而非知识。Phi - 2 在学术数据集上的表现与 MiniCPM 相当,这可能是由于它们在训练数据中对教育背景的重视。
总之,本文介绍了 MiniCPM,其具有两个分别为 24 亿和 12 亿非嵌入参数的 SLMs,性能优于更大的模型。其可扩展的训练方法为模型和数据规模的发展带来了希望,WSD 调度器增强了持续训练的能力,并有助于高效地研究缩放规律。MiniCPM 系列,包括 DPO、长上下文和 MoE 版本的引入,为未来的发展方向奠定了基础,未来的目标是分析衰减阶段的损失减少情况,并通过在模型和数据规模上的缩放来增强 MiniCPM 的能力。
随着人工智能技术的不断发展,小型语言模型的研究和应用具有重要的意义。MiniCPM 的出现为解决大型语言模型的成本和效率问题提供了新的思路和方法。通过可扩展的训练方法,MiniCPM 不仅在性能上取得了优异的成果,而且为未来语言模型的发展提供了有益的借鉴。
在实际应用中,MiniCPM 的优势将得到进一步的体现。例如,在智能客服、文本生成、语言翻译等领域,小型语言模型可以更加灵活地适应不同的场景和需求,为用户提供更加高效和准确的服务。同时,MiniCPM 的可扩展性也为其在不同领域的应用提供了更多的可能性。未来,我们可以期待 MiniCPM 在更多领域的应用和发展,为推动人工智能技术的进步做出更大的贡献。
此外,MiniCPM 的研究也提醒我们,在人工智能技术的发展过程中,我们需要不断地探索和创新,寻找更加高效和可持续的发展模式。只有这样,我们才能更好地推动人工智能技术的发展,为人类社会带来更多的福祉。
总之,MiniCPM 的出现是人工智能领域的一个重要成果,它为小型语言模型的发展树立了新的标杆。相信在未来的发展中,MiniCPM 将不断完善和发展,为人工智能技术的应用和推广带来更多的惊喜和可能。