（9）LLM模型量化世界观(下)

⏰ 发布时间：2024-06-06 12:51:29 (UTC+8)

公式部分因格式转化困难，建议访问上述知乎链接查看

更新记录

更新时间	更新内容
2024.04.09	完成正式版第一版

开篇

大家好，我是小A。围绕LLM模型量化的7个问题，我们在上一篇《LLM模型量化世界观(上)》中介绍了前面3个，这一篇开始我们讨论剩余的4个问题

•

问题1：浮点数和定点数本质区别是什么？

•

问题2：QAT是如何学习scale的？

•

问题3：Weight-only常规比特量化有什么常见方法，二阶导方法如何推导？

•

问题4：Weight-only极低比特量化有什么开脑洞的方法？

•

问题5：Activation+Weight量化中交叉维的均衡化都有哪些玩法？

•

问题6：FP8 量化效果究竟怎么样？

•

问题7：KV Cache量化都有哪些方法？

Weight-Only极低比特量化

常用的OBS/OBQ/GPTQ/OWQ/AWQ等方法一般用作不小于4bit的量化场景，当比特数进一步下降到小于4bit的时候，往往需要重新审视量化问题，回归压缩存储的初衷。本小节将介绍3种方法

•

SpQR用分治方法分离出敏感权重，然后对非敏感权重采用二级压缩方法，转化为3bit存储

•

SqueezeLLM也是先把极端值分离出来，对剩余的权重用加权的k-means聚类的非均匀量化方法

•

AQLM直接借鉴了近似搜索的方案，利用码本和码字来重新建模量化过程

（9）LLM模型量化世界观(下)​