Deploy034 投机解码

2024年10月10日修改
1.1 投机推理\采样 (Speculative Decoding )
关于投机性执行是分布式计算的老话题,在计算机体系结构中也有投机预取,处理器优化中也有推测投机执行指令,也就是分支预测,还有分布式领域 MapReduce/Hadoop 时代(大概在 2010 年前后)就有大量关于投机性执行一些预计性任务的工作等等的相关思想。大语言模型都需要迭代运行顺序生成标记,也就是一个一个 token 往外吐,不好在 token 级别并行进行加速。所以就有了投机推理技术来帮忙优化增加并行度,一般被称为 speculative decode,推测性解码、投机解码。
2.1 Speculative Decoding 背后有两个关键思想
2.1.1 预测 Token 难易不一致
在下图中,预测标记 'of ' 真的很容易,而且它可能很容易被小得多的模型预测,因此使用较小的模型来预测简单的标记,而使用大模型仅用于预测更困难的标记。

加载失败,