拆分Transformer注意力,韩国团队让大模型解码提速20倍

2024年7月18日修改
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
只要将注意力切块,就能让大模型解码提速20倍。
来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的Transformer架构。
不仅获得了更快的推理速度,内存开销也大幅度下降。
附件不支持打印
飞书文档 - 图片
研究人员详细分析了原始Transformer推理速度慢的原因——
原始Transformer每生成一个Token就要访问一次全局KV缓存 ,消耗了大量资源。
实际上,这种方法的GPU 有效利用率不到1% ,其余的99%都用在了内存访问上。
附件不支持打印

加载失败,