Transformer模型的基础演算

2024年7月4日创建
作者:Quentin Anthony、Stella Biderman、Hailey Schoelkopf
翻译:贾川、徐佳渝、杨婷 | OneFlow
附件不支持打印
引言
Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式,并介绍这些公式的来源和重要性。
注:本文主要关注显存(VRAM)主导的训练成本。有关推理成本和时延方面的类似讨论, 请参见此前发布的《 大型语言模型的推理演算》
(本文经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。原文:https://blog.eleuther.ai/transformer -math/ )
计算需求
Transformer模型的训练成本可通过以下基本公式计算得出:
附件不支持打印

加载失败,