大语言模型的关键技术

4月9日修改
1.
大语言模型的关键技术
语言大模型技术主要包括:模型预训练适配微调提示学习知识增强工具学习等。
模型预训练
50%
适配微调
50%
提示学习
33%
知识增强
33%
工具学习
33%
1.1
预训练
高效预训练策略。其主要思路是采用不同的策略以更低成本实现 对语言大模型的预训练。
附件不支持打印
飞书文档 - 图片
💾
1.
一种是在预训练中设计高效的优化任务目标,使得可以使得模型能够利用每个样本更多的监督信息,从而实现模型训练的加速
2.
第二种是热启动策略,在训练开始时线性地提高学习率,以解决在预训练中单纯增加批处理大小可能会导致优化困难问题。
3.
第三种是渐进式训练策略,不同于传统的训练范式使用相同的超参数同时优化模型每一层,该方法认为不同的层可以共享相似的自注意力模式,首先训练浅层模型,然后复制构建深层模型。