大模型的开发训练与推理部署
大模型的开发训练与推理部署
4月8日修改
大模型的开发训练与推理部署
1.
大模型开发与训练
大模型的高性能训练旨在通过对模型计算、显存、内存和通信的系统级优化,在保证模型收敛性的前提下,提高训练吞吐量,实现在有限资源下大模型高效训练的目的。
系统级优化方法主要从两个方向实现:
💾
一是:设备内优化方法,包括降低浮点数的冗余表示的半精度浮点优化、混合精度浮点优化等方法、降低梯度计算过程中冗余表示的梯度检查点( Checkpointing ) 方法 , 以内存优化 的 ZeRO-Offload方法,即通过将数据和计算从 GPU 卸载到 CPU,以减少神经网络训练期间 GPU 内存占用的方法。
附件不支持打印
💾
二是:多设备优化方法,也称分布式优化,即将分布在不同计算节点上的多个 GPU 一起用于训练单个模型,这类方法主要有数据并行、张量并行、流水线并行、分组参数切片并行等多种并行加速策略,下面进行重点介绍。
附件不支持打印