Transformer模型的基础演算

2024年7月4日创建

作者：Quentin Anthony、Stella Biderman、Hailey Schoelkopf

翻译：贾川、徐佳渝、杨婷 | OneFlow

附件不支持打印

引言

Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是，这些计算公式在自然语言处理（NLP）社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式，并介绍这些公式的来源和重要性。

注：本文主要关注显存（VRAM）主导的训练成本。有关推理成本和时延方面的类似讨论，请参见此前发布的《大型语言模型的推理演算》。

（本文经授权后由OneFlow编译发布，译文转载请联系OneFlow获得授权。原文：https://blog.eleuther.ai/transformer -math/ ）

计算需求

Transformer模型的训练成本可通过以下基本公式计算得出：

附件不支持打印

Transformer模型的基础演算​