LoRA
LoRA
2023年11月17日修改
论文
•
LoRA:Low-Rank Adaptation of Large Language Models
摘要
•
在Transformer每个层之间插入rank decomposition matrices 秩分解矩阵
[SVD和低秩矩阵近似(Low-rank Matrix Approximation)的数据压缩 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/447385674)
•
有更高的训练吞吐,没有额外的推理延迟
结论
•
没有引入推理延迟,也没有减少输入序列长度,允许快速的任务迁移 quick task-switching
•
未来工作
◦
和其他adaptation结合,尤其是正交的提升
◦
微调和LoRA背后的原理还不清楚,预训练学习到的特征是怎么在下游任务上有效的?LoRA可能比Full Finetune更tractable地回答了这个问题
◦
我们主要依赖启发式方法来选择权重矩阵,有没有更有原则的方法来做
◦
the rank-deficiency of ∆W suggests that W could be rank-deficient as well,这一点很特别:
可能也是低秩的
引言
•
目前的工作的问题
◦
引入推理延迟
◦
降低模型可用sequence length
◦
不如基线模型
•
我们认识到 the learned over-parametrized models in fact reside on a low intrinsic dimension