- 一文详解大语言模型的流行架构与训练技术
- 1. 主流的LLM架构
- Transformer
- 仅编码器架构
- 仅解码器架构
- 编码器-解码器架构
- 2. 数据清理
- 2.1 数据过滤
- 2.2 数据去重
- 3 分词
- 3.1 BytePairEncoding(字节对编码)
- 3.2 WordPieceEncoding(词片编码)
- 3.3 SentencePieceEncoding(句子片编码)
- 4. 位置嵌入
- 4.1 绝对位置嵌入(Absolute Positional Embeddings, APE)
- 4.2 相对位置嵌入(Relative Positional Embeddings, RPE)
- 4.3 旋转位置嵌入(Rotary Position Embeddings, RoPE)
- 4.4 相对位置偏置(Relative Positional Bias)
- 5. 模型预训练
- 5.1 自回归语言建模
- 5.2 遮蔽语言建模
- 5.3 专家混合(Mixture of Experts, MoE)
- 6. 微调和指令微调
- 6.1 微调
- 6.2 指令微调
- 6.3 Self-Instruct方法
- 7. 对齐
- 7.1 对齐
- 7.2 指令微调
- 7.3 RLHF和RLAIF
- 7.4 DPO
- 7.5 KTO
- 8. 解码策略
- 8.1 Greedy Search
- 8.2 Beam Search
一文详解大语言模型的流行架构与训练技术
一文详解大语言模型的流行架构与训练技术
2024年7月10日创建
作者:APlayBoy | AI生成未来
这篇博客全面介绍了大型语言模型(LLMs)的构建流程,从流行架构的选择到实际建模的每个关键步骤。文章首先探讨了LLMs的模型架构,然后详细阐述了数据准备过程,包括数据的收集、清洗和去重,接着是关于如何进行有效标记化的讨论。在模型构建方面,博客详细解释了采用自监督学习方法的预训练过程,以及对模型进行指令微调和对齐的重要性。每个环节都被细致地讲解,使读者能够深入理解LLMs的构建和优化过程。这篇博客为那些对LLMs工作方式感兴趣的读者提供了一个指导。
训练流程示意 :
附件不支持打印
加载失败,
1. 主流的LLM架构
•
常见架构类型 :最广泛使用的LLM架构包括仅编码器、仅解码器和编码器-解码器。
•
基础架构 :大多数LLM架构都基于Transformer(Transformer)作为构建模块。
•
Transformer架构回顾 :因此,我们也将在这里回顾Transformer架构。
Transformer
•
开创性工作 :Vaswani等人提出Transformer框架,具有里程碑的意义,最初设计用于使用GPU进行有效的并行计算。
•
核心机制 :Transformer的核心是(自)注意力机制,相比递归和卷积机制,它能够更有效地利用GPU捕捉长期上下文信息。