输入“/”快速插入内容

Why decoder-only? LLM架构的演化之路

2024年8月27日修改

作者：Zhongmei | 智见AGI

原文： https://mp.weixin.qq.com/s/Zrq1Wvfb...

common.docs_name - LarkCCM_Docs_Menu_Image

如何根据大模型架构进行选型

©作者 | Zhongmei

来源 | 神州问学

引言

本文想为大型语言模型（LLMs）及其下游自然语言处理（NLP）任务的实践者和用户提供一份全面且实用的指南。将从模型架构的角度出发，对比不同架构的特点，希望可以从最底层给大模型选型一些参考意见。 以及针对大模型架构的演变过程做出探究，分析decoder-only成为主流架构背后的原因。​

大模型常见架构

LLM（大型语言模型）的架构命名某种程度上是混乱而反常的。所谓的“decoder-only（仅解码器）”实际上意味着“自回归编码器-解码器”。“encoder only（仅编码器）” 实际上包含一个编码器和解码器（非自回归），而所谓的“encoder-decoder（编码器-解码器）”真实含义是”自回归编码器-解码器“​

—— Yann Lecun

这个小节会简要介绍常见的不同的大模型的模型架构和用例。目前比较常见的是将其分类为：encoder-only, decoder-only以及encoder-decoder。但是正如杨立昆推特帖子中说的，其实这些名称比较难理解。个人觉得最好理解的方式如下：机器学习模型都是根据给定的输入来预测输出，在NLP模型中把出处理输入的组件叫做Encoder，它负责将输入的文字序列转化为一种隐藏表示（语义上丰富表示的特征向量）；而生成输出的组件叫做Decoder，负责试用隐藏表达来生成目标文字序列。 所以从这种角度讲所有的模型都可以从”Encoder-decoder“的角度来理解，差异在于Encoder、Decoder的注意力模式以及如何共享参数。所以个人觉得更直观的方法是上表格。​

表一：模型架构

图1. 不同语言模型的注意力掩码设计不同，掩码全部取1为双向注意力，掩码下三角矩阵为单向注意力。图中蓝色指处理输入时前缀token彼此的注意力，绿色指输入token和输出token间的注意力，黄色则指的是输出token和掩码token间的注意力​

架构特性

近年来，大型语言模型（LLM）的快速发展正在彻底改变自然语言处理(NLP)领域。但是，有效且高效地利用这些模型需要对其能力和局限性有实际的了解。​

由于自然语言数据易于获得，且已提出了更好地利用极大数据集的无监督训练范式，这促进了自然语言的无监督学习。 但NLP领域要求模型不仅能理解语言（NLU），还要能生成语言（NLG），不同架构在平衡这两方面的能力上存在显著差异。​

Why decoder-only? LLM架构的演化之路​

Why decoder-only? LLM架构的演化之路