大语言模型的关键技术
大语言模型的关键技术
4月9日修改
1.
大语言模型的关键技术
•
语言大模型技术主要包括:模型预训练、适配微调、提示学习、知识增强和工具学习等。
模型预训练
适配微调
提示学习
知识增强
工具学习
1.1
预训练
高效预训练策略。其主要思路是采用不同的策略以更低成本实现 对语言大模型的预训练。
附件不支持打印
💾
1.
一种是在预训练中设计高效的优化任务目标,使得可以使得模型能够利用每个样本更多的监督信息,从而实现模型训练的加速。
2.
第二种是热启动策略,在训练开始时线性地提高学习率,以解决在预训练中单纯增加批处理大小可能会导致优化困难问题。
3.
第三种是渐进式训练策略,不同于传统的训练范式使用相同的超参数同时优化模型每一层,该方法认为不同的层可以共享相似的自注意力模式,首先训练浅层模型,然后复制构建深层模型。