大语言模型的关键技术

4月9日修改

大语言模型的关键技术

•

语言大模型技术主要包括：模型预训练、适配微调、提示学习、知识增强和工具学习等。

模型预训练

50%

适配微调

50%

提示学习

33%

知识增强

33%

工具学习

33%

1.1

预训练

高效预训练策略。其主要思路是采用不同的策略以更低成本实现对语言大模型的预训练。

附件不支持打印

💾

一种是在预训练中设计高效的优化任务目标，使得可以使得模型能够利用每个样本更多的监督信息，从而实现模型训练的加速。

第二种是热启动策略，在训练开始时线性地提高学习率，以解决在预训练中单纯增加批处理大小可能会导致优化困难问题。

第三种是渐进式训练策略，不同于传统的训练范式使用相同的超参数同时优化模型每一层，该方法认为不同的层可以共享相似的自注意力模式，首先训练浅层模型，然后复制构建深层模型。

大语言模型的关键技术​