多模态大模型（MLLM）- 训练篇

2024年8月26日修改

【导读】MLLM 的训练范式大致可以划分为预训练阶段、指令微调阶段和对齐微调阶段。1）预训练阶段：通过大量图文对将图片信息对齐到 LLM 的表征空间，即让 LLM 读懂视觉 Token；2）指令微调阶段：通过多样化的各种类型的任务数据提升模型在下游任务上的性能，以及模型理解和服从指令的能力；3）对齐微调阶段：一般使用强化学习技术使模型对齐人类价值观或某些特定需求(如更少幻觉)。

https://arxiv.org/pdf/2306.13549

一、MLLM的训练范式

MLLM的三个主要训练阶段：预训练（pre-training）、指令微调（instruction-tuning）、对齐微调（alignment tuning）。

二、MLLM 的三个训练阶段

2.1 预训练（Pre-training）

2.1.1 目的

Pre-training：对齐不同模态，并学习多模态世界知识。如 llava 第一阶段训练的目的是为了将图片信息映射到文本语义空间，让 LLM 能够理解图像内容。

2.1.2 数据

预训练阶段使用大规模文本配对数据，通常为图像、音频或视频的caption数据。代表性的预训练数据集有：CC-3M & CC-12M、SBU Captions、LAION、COYO-700M等

附件不支持打印

common.docs_name - LarkCCM_Docs_Menu_Image

图：用于构建image-text-pair数据的简化模板。{<image>}是视觉token的占位符，{caption}是图像的描述。

2.1.3 训练

训练：通常冻结预训练模块，如Visual Encoder和 LLM，并训练一个可学习的Adapter，是为了在不丢失预训练知识的情况下对齐不同模态。一些方法也会解冻更多的模块，如解冻 visual encoder ，能够训练更多的参数。

附件不支持打印

多模态大模型（MLLM）- 训练篇​

多模态大模型（MLLM）- 训练篇