输入“/”快速插入内容

LLM(十八):LLM 的推理优化技术纵览

2024年8月20日修改
作者:紫气东来
推理是 LLM 应用的重要一环,在部署服务环节影响重大,本文将讨论主流的 LLM 的推理优化技术。
一、子图融合(subgraph fusion)
图融合技术即通过将多个 OP(算子)合并成一个 OP(算子),来减少 Kernel 的调用。因为每一个基本 OP 都会对应一次 GPU kernel 的调用,和多次显存读写,这些都会增加大量额外的开销。
1.1 FasterTransformer by NVIDIA
FasterTransformer (FT) 是一个用于实现基于 Transformer 的神经网络推理的加速引擎。 FT 框架是用 C++/CUDA 编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库,与 NVIDIA TensorRT 等其他编译器相比,FT 的特点是它支持 以分布式方式推理 Transformer 大模型
图融合是 FT 的一个重要特征,将多层神经网络组合成一个单一的神经网络,将使用一个单一的内核进行计算。 这种技术减少了数据传输并增加了数学密度,从而加速了推理阶段的计算。 例如, multi-head attention 块中的所有操作都可以合并到一个内核中。
除此之外, FT 还对部分大模型分别支持:
INT8 低精度量化推理
Ampere 架构的 GPU 硬件部分支持稀疏化
Hopper 架构支持 FP8 推理
Tensor 并行
Pipeline 并行
1.2 DeepSpeed Inference by Microsoft
对于 Transformer layer,可分为以下4个主要部分:
1.
Input Layer-Norm plus Query, Key, and Value GeMMs and their bias adds.
2.
Transform plus Attention.
3.
Intermediate FF, Layer-Norm, Bias-add, Residual, and Gaussian Error Linear Unit (GELU).
4.
Bias-add plus Residual.
如图所示,每一部分可分别进行融合,与未融合相比,以上几个部分的加速比可分别达到 1.5x, 2.9x, 3x, 1.2x 。
除此之外,DeepSpeed Inference 的优化点还有以下几点:
多 GPU 的并行优化