- LLM(十八):LLM 的推理优化技术纵览
- 一、子图融合(subgraph fusion)
- 1.1 FasterTransformer by NVIDIA
- 1.2 DeepSpeed Inference by Microsoft
- 1.3 MLC LLM by TVM
- 二、模型压缩(Model Compression)
- 2.1 稀疏(Sparsity)
- 2.2 量化(Quantization)
- 2.3 蒸馏(Distillation)
- 2.4 MoE
- 三、并行化(Parallelism)
- 3.1 数据并行 (Data Parallelism, DP)
- 3.2 张量并行(Tensor Parallelism, TP)
- 3.3 流水线并行(Pipeline Parallelism, PP)
- 四、Transformer 结构优化
- 4.1 FlashAttention
- 4.2 PagedAttention
- 4.3 FLAT Attention
- 五、动态批处理(Dynamic Batch, Continuous batch )
- 5.1 ORCA
- 5.2 FastServe
- 5.3 vLLM
- 5.4 Text Generation Inference
- 5.5 LMDeploy
- 六、KV cache 优化
- 七、解码优化
- 7.1 推测解码 ( Speculative Decoding )
- 7.2 并行解码 —— Medusa
- 八、硬件升级
- 8.1 NVIDIA H100 PCIe
- 8.2 AMD MI300
- 8.3 Apple M2 Ultra
- 参考资料
LLM(十八):LLM 的推理优化技术纵览
LLM(十八):LLM 的推理优化技术纵览
2024年8月20日修改
作者:紫气东来
推理是 LLM 应用的重要一环,在部署服务环节影响重大,本文将讨论主流的 LLM 的推理优化技术。
一、子图融合(subgraph fusion)
图融合技术即通过将多个 OP(算子)合并成一个 OP(算子),来减少 Kernel 的调用。因为每一个基本 OP 都会对应一次 GPU kernel 的调用,和多次显存读写,这些都会增加大量额外的开销。
FasterTransformer (FT) 是一个用于实现基于 Transformer 的神经网络推理的加速引擎。 FT 框架是用 C++/CUDA 编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库,与 NVIDIA TensorRT 等其他编译器相比,FT 的特点是它支持 以分布式方式推理 Transformer 大模型 。
图融合是 FT 的一个重要特征,将多层神经网络组合成一个单一的神经网络,将使用一个单一的内核进行计算。 这种技术减少了数据传输并增加了数学密度,从而加速了推理阶段的计算。 例如, multi-head attention 块中的所有操作都可以合并到一个内核中。
附件不支持打印
加载失败,