输入“/”快速插入内容

大语言模型的关键技术

4月9日修改

1.
大语言模型的关键技术​

•
语言大模型技术主要包括：模型预训练、适配微调、提示学习、知识增强和工具学习等。​

模型预训练

50%

适配微调

50%

提示学习

33%

知识增强

33%

工具学习

33%

1.1
预训练​

高效预训练策略。其主要思路是采用不同的策略以更低成本实现 对语言大模型的预训练。​

common.docs_name - LarkCCM_Docs_Menu_Image

💾

1.
一种是在预训练中设计高效的优化任务目标，使得可以使得模型能够利用每个样本更多的监督信息，从而实现模型训练的加速。​

2.
第二种是热启动策略，在训练开始时线性地提高学习率，以解决在预训练中单纯增加批处理大小可能会导致优化困难问题。​

3.
第三种是渐进式训练策略，不同于传统的训练范式使用相同的超参数同时优化模型每一层，该方法认为不同的层可以共享相似的自注意力模式，首先训练浅层模型，然后复制构建深层模型。​

4.
第四种是知识继承方法，即在模型训练中同时学习文本和已经预训练语言大模型中的知识，以加速模型训练。在中文语言大模型 CPM-2中，采用知识继承技术经测试可以使大模型在预训练前期提速 37.5%。​

5.
第五种是可预测扩展策略（Predictable Scaling），旨在大模型训练初期，利用大模型和小模型的同源性关系，通过拟合系列较小模型的性能曲线预测大模型性能，指导大模型训练优化。OpenAI 在 GPT-4 训练中，使用 1000 倍至 10000 倍较少计算资源训练的小模型可靠地预测GPT-4 某些性能，大幅降低了模型训练成本​

BERT 之后的 Transformer 架构在提高自然语言处理效率方面有两个重要优化方向：​

（1）统一的序列建模，

旨在将多种自然语言处理任务（如分类、信息抽取、翻译、对话等）整合到一个统一的框架，然后在同一模型中执行多个任务，以实现更高效的自然语言处理。​

61%

39%

💾

1.
一是转化为序列生成的统一任务，如 T5和 BART等将多种自然语言任务统一转化文本到文本的生成任务；​

2.
二是转化为语言大模型预训练任务，通过语言提示在输入文本中插入人类设计或者自动生成的上下文，实现对不同任务的处理。​

（2）计算高效的模型架构。

•
从 Transformer 模型架构本身在处理训练复杂度、编解码效率、训练稳定性、显存利用等方面进行优化。​

比如，Transformer 其并行处理机制是以低效推理为代价的，解码时每个步骤的复杂度为 O(N)，Transformerr 模型也是显存密集型模型，输入序列越长、占用的内存越多。​

为此，微软设计了一种新的 Transformer 架构 RetNet，其采用线性化注意力+尺度保持（Retention ）机制，在基本保持模型性能的基础上同时实现模型训练速度、推断速度和内存节约的大幅提升。​

针对自注意力显存消耗大，斯坦福大学在 Transformer中引入FashAttention，给出了一种具有 IO 感知，且兼具快速、内存高效的注意力算法，已经被各种主流大模型采用以扩展对超长文本输入的支持。​

最近，模块化大模型架构引起广泛关注，其利用大模型的神经激活稀疏性，对稠密模型进行模块化划分，不同任务只经过部分模块计 算实现训练和推理加速 ， 典型工 作 包 括 Google 的 Switch Transformers 和 Pathways架构、清华大学的 MoEfication 架构 、FastMoE 架构等。​

55%

混合专家化的模型架构

Switch Transformers 模型架构

45%

1.2
语言大模型的适配微调​

语言大模型由于在大规模通用领域数据预训练通常缺乏对特定任务或领域的知识，因此需要适配微调。微调可以帮助模型更好地适应特定需求，如对敏感数据（如医疗记录）的处理，同时不暴露原始数据。此外，微调可以提高部署效率、减少计算资源需求。指令微调和参数高效学习是适配微调的关键技术。​

大语言模型的关键技术​

大语言模型的关键技术