输入“/”快速插入内容

单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE

2024年8月12日修改
机器之心|阅读原文
转载请联系原作者取得授权
释放进一步扩展 Transformer 的潜力,同时还可以保持计算效率。
标准 Transformer 架构中的前馈(FFW)层会随着隐藏层宽度的增加而导致计算成本和激活内存的线性增加。在大 语言模型 (LLM)体量不断增大的现在,稀疏混合专家(MoE)架构已成为解决此问题的可行方法,它将模型大小与计算成本分离开来。很多新兴的 MoE 模型都可以实现相同体量之上,更好的性能与更强大的表现。
最近发现的细粒度 MoE 扩展定律表明,更高的粒度可带来更好的性能。然而由于计算和优化方面的挑战,现有的 MoE 模型仅限于低数量专家。
本周二, Google DeepMind 的新研究引入了一种 参数 高效的专家检索机制,其利用乘积密钥技术从一百万个微型专家中进行稀疏检索
该方法尝试通过用于路由的学习索引结构有效地串联到大量微小专家,从而将计算成本与 参数 计数分离。与密集的 FFW、粗粒度 MoE 和产品密钥存储器 (PKM) 层相比,表现出卓越的效率。
这项工作引入了 参数 高效专家检索(PEER) 架构(parameter efficient expert retrieval),利用产品密钥(product key)检索高效地路由到大量专家,将计算成本与 参数 量分离。这种设计在实验中展示了卓越的计算性能水平,将其定位为用于扩展基础模型的密集 FFW 层的竞争性替代方案。这项工作的主要贡献是:
极端 MoE 设置的探索:与以前的 MoE 研究中对少数大型专家的关注不同,这项工作研究了众多小型专家的未充分探索的情况。
用于路由的学习索引结构:首次证明学习索引结构可以有效地路由到超过一百万个专家。
新的层设计:将产品密钥路由与单 神经元 专家相结合,我们引入了 PEER 层,它可以扩展层容量而无需大量计算开销。实证结果表明,与密集 FFW、粗粒度 MoE 和产品密钥内存 (PKM) 层相比,其效率更高。
综合消融研究:我们研究了 PEER 的不同设计选择(例如专家数量、活动 参数 、头数量和 查询 批量 规范化 )对语言建模任务的影响。
方法介绍
本节中,研究者详解了 参数 高效专家检索 (PEER) 层,它一种混合专家架构,使用路由中的产品密钥和单 神经元 MLP 作为专家。下图 2 展示了 PEER 层内的计算过程。