我们还需要Transformer中的注意力吗?
我们还需要Transformer中的注意力吗?
2024年7月2日创建
作者:机器之心
🏖️
状态空间模型正在兴起,注意力是否已到尽头?
最近几周,AI 社区有一个热门话题:用无注意力架构来实现语言建模。简要来说,就是机器学习社区有一个长期研究方向终于取得了实质性的进展,催生出 Mamba 两个强大的新模型:Mamba 和 StripedHyena。它们在很多方面都能比肩人们熟知的强大模型,如 Llama 2 和 Mistral 7B。这个研究方向就是无注意力架构,现在也正有越来越多的研究者和开发者开始更严肃地看待它。
近日,机器学习科学家 Nathan Lambert 发布了一篇题为《状态空间 LLM:我们需要注意力吗?》的文章,详细介绍了 2023 年无注意力模型的发展情况。他还表示:2024 年你将会有不同的语言模型架构可选。需要说明,这篇文章包含不少数学内容,但深度理解它们是值得的。鉴于这篇文章较长,所以这里先列出分节目录,以方便读者索引:
•
引言:我们为什么可能并不想使用注意力以及什么是循环神经网络。
•
Mamba 模型:这种新的状态空间模型能为未来多种类别的语言模型提供功能和硬件加速。
•
StripedHyena 模型:这种来自 Together AI 的新 7B 模型组合了 RNN 和 Transformer 方向的最近研究成果,表现很出色。
•
Monarch Mixers 研究:这篇新论文给出了一个范例,展示了该研究的运作方式,以及为什么没有注意力或 MLP 也能成功。
•
Zoology 研究:这是一个用于高效 LLM 架构研究的代码库,另外还有基于这些研究得到的模型 Based。
此外还有更多链接、阅读材料和资源。
如果你对这些内容感兴趣,可以阅读作者 Nathan Lambert 对这一领域的两位领先研究者的采访,参阅机器之心报道《 谁能撼动 Transformer 统治地位?Mamba 作者谈 LLM 未来架构 》。
注意力 vs 循环和状态空间模型(SSM)
本文的核心是理解不同的计算方式会怎样为模型带来不同的能力。本文关注的主题是语言,但其中的思想也适用于其它许多模态(事实上,这些新架构最早取得成功的模态是音频)。当模型的内部不同时,就会出现不同的归纳方式、训练会有新的扩展律、不同的推理时间成本、新的表达能力水平(即模型可学习的任务的复杂度)等等。架构会改变有关模型的表达方式的一切,即便数据一样也是如此。
一如既往,不同的架构选择都有各自的优劣之处。现如今最流行的 Transformer 架构的核心组件注意力有非常出色的性能和可用性,原因有很多。本文不会把这些原因都列出来;简单来说,注意力有利于处理语言任务时有一个自然的归纳偏差的模型、可以轻松在 GPU 和 TPU 上扩展训练的模型、可以高效处理大批量输入的模型(例如存储键 - 值矩阵)等等。
究其核心,注意力中有从过去每个 token 到当前 token 的映射。正是这种密集架构,让模型有能力表征许多不同的内容并关注长上下文样本。
而循环神经网络(RNN)将时间整合进模型的方式却大不相同,这是本文要讨论的主要竞争方法。这些模型会在每次遇到新的输入数据时更新一个内部状态变量(以下记为 x)原理上讲,这种内部状态可以捕获任意系统的相关长期行为,而无需与数据之间有直接的计算链接。这能让模型在计算长序列时的效率非常高,但直到最近,人们都还没能证明其在性能上能媲美基于注意力的模型。下图比较了注意力和 RNN 的计算图谱:
附件不支持打印
加载失败,