混合专家模型 (MoE) 详解

2月19日修改
简短总结 :混合专家模型 (MoEs)
💾
与稠密模型相比, 预训练速度更快
与具有相同参数数量的模型相比,具有更快的推理速度
需要大量显存,因为所有专家系统都需要加载到内存中
近期的研究 表明混合专家模型进在指令调优具有很大的潜力
什么是混合专家模型?
模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。
作为一种基于 Transformer架构的模型,混合专家模型主要由两个关键部分组成:
附件不支持打印
飞书文档 - 图片
💾
稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈网络 (FFN),但它们也可以是更复杂的网络结构,甚至可以是 MoE 层本身,从而形成层级式的 MoE 结构。