大模型的开发训练与推理部署

4月8日修改

大模型的开发训练与推理部署

大模型开发与训练

大模型的高性能训练旨在通过对模型计算、显存、内存和通信的系统级优化，在保证模型收敛性的前提下，提高训练吞吐量，实现在有限资源下大模型高效训练的目的。

系统级优化方法主要从两个方向实现：

💾

一是：设备内优化方法，包括降低浮点数的冗余表示的半精度浮点优化、混合精度浮点优化等方法、降低梯度计算过程中冗余表示的梯度检查点（ Checkpointing ）方法，以内存优化的 ZeRO-Offload方法，即通过将数据和计算从 GPU 卸载到 CPU，以减少神经网络训练期间 GPU 内存占用的方法。

附件不支持打印

💾

二是：多设备优化方法，也称分布式优化，即将分布在不同计算节点上的多个 GPU 一起用于训练单个模型，这类方法主要有数据并行、张量并行、流水线并行、分组参数切片并行等多种并行加速策略，下面进行重点介绍。

附件不支持打印

大模型的开发训练与推理部署​

大模型的开发训练与推理部署