Transformer模型的基础演算
Transformer模型的基础演算
2024年7月4日创建
作者:Quentin Anthony、Stella Biderman、Hailey Schoelkopf
翻译:贾川、徐佳渝、杨婷 | OneFlow
附件不支持打印
引言
Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式,并介绍这些公式的来源和重要性。
计算需求
Transformer模型的训练成本可通过以下基本公式计算得出:
附件不支持打印
加载失败,