使用TensorRT-LLM进行生产环境的部署指南
使用TensorRT-LLM进行生产环境的部署指南
2024年7月19日修改
TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
附件不支持打印
';if(document.write(e),!window.loadFullI18n){var o=window.i18nStorage.getItem("docx");if(!window.loadDocxCacheI18nFg||!o){var a='';document.write(a)}}}}(),delete window._initLangSettings},window._initLangSettings()}();