LLM(十八):LLM 的推理优化技术纵览

2024年8月20日修改
作者:紫气东来
推理是 LLM 应用的重要一环,在部署服务环节影响重大,本文将讨论主流的 LLM 的推理优化技术。
一、子图融合(subgraph fusion)
图融合技术即通过将多个 OP(算子)合并成一个 OP(算子),来减少 Kernel 的调用。因为每一个基本 OP 都会对应一次 GPU kernel 的调用,和多次显存读写,这些都会增加大量额外的开销。
1.1 FasterTransformer by NVIDIA
FasterTransformer (FT) 是一个用于实现基于 Transformer 的神经网络推理的加速引擎。 FT 框架是用 C++/CUDA 编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库,与 NVIDIA TensorRT 等其他编译器相比,FT 的特点是它支持 以分布式方式推理 Transformer 大模型
图融合是 FT 的一个重要特征,将多层神经网络组合成一个单一的神经网络,将使用一个单一的内核进行计算。 这种技术减少了数据传输并增加了数学密度,从而加速了推理阶段的计算。 例如, multi-head attention 块中的所有操作都可以合并到一个内核中。
附件不支持打印

加载失败,