使用TensorRT-LLM进行生产环境的部署指南

2024年7月19日修改
作者:P**nHub兄弟网站 DeepHub IMBA
TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
附件不支持打印
飞书文档 - 图片