输入“/”快速插入内容

“烧钱”的大模型:初探成本拆解与推理优化方法

2024年8月13日修改
作者: Dmytro Nikolaiev (Dimid)
编者按:大模型的成本问题一直以来是大家重点关注的问题,本文重点讨论了训练大型语言模型(LLMs)需要的成本,并简要介绍什么是LLM以及一些用于优化大模型推理表现的技术。
虽然很难准确预测LLMs未来会怎么发展,但可以肯定,如果成本问题得到解决,LLM会成为我们生活中不可或缺的一部分!
以下是译文,Enjoy!
作者 | Dmytro Nikolaiev (Dimid)
编译 | 岳扬
在过去的一段时间,机器学习被认为是一门复杂的、只有少数人可以理解的专业技术。然而,随着机器学习相关的应用变得越来越强大,公众的兴趣也随之高涨,导致大量有关人工智能的内容涌现。直到2022年11月我们看到ChatGPT时,高潮出现了,并且在2023年3月的GPT-4发布时达到了第二波高潮,此时即使是原来对AI最怀疑的人也会对当下神经网络的能力感到惊讶。
人工智能受到了大量群众的关注,网络上出现了大量有关人工智能的内容。其中一些内容无疑是有价值的,但其中相当大一部分在传播恐惧和误导性信息,比如传播人工智能将取代所有人类工作或发现神经网络可以赚取巨额财富的秘密之类的内容。因此,消除关于机器学习和大型语言模型(LLMs)的误解,提供有价值的内容来帮助人们更好地了解这些技术变得越来越重要。
本文旨在讨论当下机器学习领域中经常被忽视或误解的内容——训练大型语言模型需要的成本。同时,本文还将简要介绍什么是LLM以及一些可能用于优化大模型推理流程的技术。通过全面的介绍,希望能说服读者这些技术并非凭空而来。了解数据规模和底层计算有助于我们更好地理解这些强大的工具。
大多数时候,本文将依据Meta AI最近发布的关于LLaMA的那篇论文([1]),因为它清晰明了地展示了该团队用于训练这些模型的数据和计算量。本文将分成以下几个部分:
首先,本文将简要介绍当下最新的LLM是什么;
然后,本文将讨论训练这些模型的成本;
最后,本文将简要介绍一些模型推理技术的优化方法。
随着深入大型语言模型的世界,您会发现它既非常简单,同时也非常复杂。
01 大型语言模型简介
在我们探讨与训练大型语言模型(LLM)有关的费用及成本之前,首先让我们简单地定义一下什么是语言模型。
2018-2019年发布的几个语言模型的参数数量
如今的LLM通常有几百亿到几千亿的参数
图1来自DistilBERT论文
简单来说,语言模型是一种被设计用于理解或生成人类自然语言的机器学习算法。最近,语言生成模型变得越来越受欢迎,其中包括OpenAI开发的GPT模型系列:ChatGPT、GPT-4等(GPT是指Generative Pre-trained Transformer,这样命名为了表明它基于 Transformer 架构([2]))。
还有一些虽然不太流行,但依然很重要的模型。比如GPT-3(175B)([3])、BLOOM(176B)([4])、Gopher(280B)([5])、Chinchilla(70B)([6])和LLaMA(65B)([7]),其中B代表参数的数量,其中许多模型也有较少参数的版本。