多模态大模型(MLLM)训练篇 - Pre-training

2024年9月2日修改

【导读】MLLM 的训练范式大致可以划分为预训练阶段、指令微调阶段和对齐微调阶段。本文首先介绍预训练阶段，预训练目的是通过大量图文对将图片信息对齐到 LLM 的表征空间，即让 LLM 读懂视觉 Token。

一、预训练的目的

多模态大模型（MLLM）预训练的目的是对齐不同模态，并学习多模态世界知识。如 llava 第一阶段训练的目的是为了将图片信息映射到文本语义空间，让 LLM 能够理解图像内容。通过大量图文对将图片信息对齐到 LLM 的表征空间，即让 LLM 读懂视觉 Token。

二、预训练数据

2.1 数据格式

预训练阶段使用大规模文本配对数据，通常为图像、音频或视频的caption数据

附件不支持打印

加载失败，

图：用于构建image-text-pair数据的简化模板。{<image>}是视觉token的占位符，{caption}是图像的描述。

下图是从 Flickr8k 中随机采样的 16 个图像文本对：

附件不支持打印

加载失败，

多模态大模型(MLLM)训练篇 - Pre-training​