从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
2024年9月5日修改
本文梳理一个完整的多模态LLM的训练流程、包括:
模型结构选择
数据预处理
模型预训练
指令微调
对齐
融合多模态
链接外部系统
一、准备阶段
1.
模型结构
目前主要有三种模型架构,基于Transforme(解码器,基于GeneradLanguage Model,以及混合专家模型。这一步可以直接选择开源的的基座模型,例如基于Teansfomer解码器架构的LaMA模型族,模型结构及一些重要参数如下图。
假设选择LaMA-658,Tokenizer选择LaMA的基于BPE算法构造的tokenizer,,如果想要扩展词表,可以在目标语言上训练好词表后和LaMA的词表merge在一起。
附件不支持打印
加载失败,