使用TensorRT-LLM进行生产环境的部署指南

2024年7月19日修改

作者：P**nHub兄弟网站 DeepHub IMBA

TensorRT-LLM是一个由Nvidia设计的开源框架，用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图，并借鉴了许多 FastTransformer 中高效的 Kernels 实现，并且可以利用 NCCL 完成设备之间的通讯。

附件不支持打印

使用TensorRT-LLM进行生产环境的部署指南​