- 【技术报告】MiniCPM2.0
- 一、简介
- 二、模型沙盒实验(Model Sandbox)
- 1. 超参稳定的模型规模扩增
- 2. 最优Batchsize
- 3. 最优学习率
- 4. 最优学习率调度器(WSD调度器)
- 5. Batchsize 调度
- 6. 固定大小模型持续训练最多可以达到几倍的大模型?
- 7. 持续训练友好的数据策略
- 三、词表
- 共享输入输出层
- 四、两阶段预训练
- 1. 稳定训练阶段
- 2. 退火阶段
- 五、对齐
- 六、全面评测
- 1. 榜单
- 1.1 SFT模型: MiniCPM-sft
- 1.2 DPO模型:MiniCPM-dpo
- 2. 典型案例
- 2.1 知识推理
- 2.2 代码
- 2.3 数学
- 2.4 翻译
- 2.5 特殊任务
- 七、量化:MiniCPM-sft/dpo-int4
- 八、多模态:MiniCPM-V
- 九、端侧部署
【技术报告】MiniCPM2.0
【技术报告】MiniCPM2.0
2024年9月5日修改
一、简介
MiniCPM是一系列端侧语言大模型,主体语言模型MiniCPM-2B具有2.4B的非词嵌入参数量。在综合性榜单上与Mistral-7B相近(中文、数学、代码能力更优),整体性能超越Llama2-13B、MPT-30B、Falcon-40B等模型。在当前最接近用户体感的榜单MTBench上,MiniCPM-2B也超越了Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha等众多代表性开源大模型。
我们将完全开源MiniCPM-2B的模型参数供学术研究和有限商用,以及训练过程中的所有Checkpoint和大部分非专有数据(需要一定时间准备)给模型机理研究。
具体而言,目前我们已开源以下模型:
•
基于MiniCPM-2B的指令微调与人类偏好对齐的MiniCPM-2B-SFT/DPO。
•
基于MiniCPM-2B的多模态模型MiniCPM-V,能力超越基于Phi-2的同参数级别多模态模型**。**
•
MiniCPM-2B-SFT/DPO的Int4量化版MiniCPM-2B-SFT/DPO-Int4。
•
基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序,文本及多模态模型均可在手机端进行推理。
模型整体性能:
局限性:
•
受限于模型规模,模型可能出现幻觉性问题。其中由于DPO模型生成的回复内容更长,更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进;
•
为了保证在学术研究用途上模型的通用性,我们未对模型进行任何身份认同训练。同时由于我们用ShareGPT开源语料作为部分训练数据,模型可能会输出类似GPT系列模型的身份认同信息;
•
受限于模型规模,模型的输出受到提示词(prompt)的影响较大,可能多次尝试产生不一致的结果;
•
受限于模型容量,模型的知识记忆较不准确,后续我们将结合RAG方法来增强模型的知识记忆能力。
二、模型沙盒实验(Model Sandbox)
大模型的实验成本高昂,难以在不进行配置调优的情况下得到最优秀的大模型性能。
我们进行了Hyper-parameters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五个方面的模型沙盒研究。
1.
超参稳定的模型规模扩增