LLM（十八）：LLM 的推理优化技术纵览

2024年8月20日修改

作者：紫气东来

原文链接：https://zhuanlan.zhihu.com/p/642412...

推理是 LLM 应用的重要一环，在部署服务环节影响重大，本文将讨论主流的 LLM 的推理优化技术。

一、子图融合（subgraph fusion）

图融合技术即通过将多个 OP（算子）合并成一个 OP（算子），来减少 Kernel 的调用。因为每一个基本 OP 都会对应一次 GPU kernel 的调用，和多次显存读写，这些都会增加大量额外的开销。

FasterTransformer (FT) 是一个用于实现基于 Transformer 的神经网络推理的加速引擎。 FT 框架是用 C++/CUDA 编写的，依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库，与 NVIDIA TensorRT 等其他编译器相比，FT 的特点是它支持以分布式方式推理 Transformer 大模型。

图融合是 FT 的一个重要特征，将多层神经网络组合成一个单一的神经网络，将使用一个单一的内核进行计算。这种技术减少了数据传输并增加了数学密度，从而加速了推理阶段的计算。例如， multi-head attention 块中的所有操作都可以合并到一个内核中。

附件不支持打印

加载失败，

LLM（十八）：LLM 的推理优化技术纵览​

LLM（十八）：LLM 的推理优化技术纵览