- LLM(廿四):Transformer 的结构改进与替代方案
- 一、再谈 Transformer ,理解不可能三角
- 1.1 Transformer 结构再认识
- 1.2 从其他经典模型视角看 Transformer
- 1.3 浅谈 Transformer 的不可能三角
- 二、改进 Transformer,如何平衡效率和效果
- 2.1 思路一:降低 Attention 的复杂度
- 2.2 思路二:结构并行化
- 三、认识新结构,如何挑战 Transformer
- 3.1 RNN 重塑 Transformer —— RWKV
- 3.2 RNN 与 Transformer 的调和 —— RetNet
- 3.3 状态空间模型及其发展 —— Mamba
- 参考资料
LLM(廿四):Transformer 的结构改进与替代方案
LLM(廿四):Transformer 的结构改进与替代方案
2024年8月21日修改
作者:紫气东来
自从 Transformer 结构被提出以来,以 BERT 为代表的 Encoder 模型,以 GPT 为代表的 Decoder 模型,以 ViT 为代表的 CV 模型,都烜赫一时。时至今日,几乎所有的 LLM 也都是 Transformer 结构,尽管不时也会有新的结构被提出来,但 Transformer 的江湖地位仍然无可撼动。那么本篇将从 Transformer 结构出发,将主要围绕以下问题展开思考和讨论:
•
Transformer 结构为什么有效,其结构中的要点和核心在哪?
•
Transformer 与之前的机器学习算法和模型有何联系,如何从其他角度认识 Transformer ?
•
Transformer 结构的训练和推理效率如何,如何平衡效果和效率?
•
是否存在 Transformer 之外的新结构可以以更低的成本,达到同等或更高的效果?
希望通过以上问题的思考和讨论,能够帮助我们更好地使用Transformer、理解Transformer、优化Transformer和改进Transformer。
一、再谈 Transformer ,理解不可能三角
1.1 Transformer 结构再认识
本篇的主要内容是围绕 Transformer 的结构展开的,因此深入了解 Transformer 结构及其工作原理是非常必要的。实际上,在笔者之前的文章中已经分析过 Transformer 的结构
及一些针对性的可解释研究方法
为了简明起见,本篇将尽可能不与之前讨论过的内容重复,而将试图从问题的角度出发而进行相关思考与讨论。
简单而言,Transformer 结构及工作原理可以用下图表示,其中图左为 Encoder 结构,图右为 Decoder 结构。
附件不支持打印
加载失败,