LoRA微调和模型量化

提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式为"<s>Human: "+问题+"\n</s><s>Assistant: "+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。

1.LoRA微调脚本

LoRA微调脚本train/sft/finetune_lora.sh如下所示：

2.LoRA微调代码

LoRA微调具体实现代码train/sft/finetune_clm_lora.py参考文献[3]。这里要说明下HuggingFace开源的一个高效微调大模型的PEFT库，目前支持很多方法和模型，详见参考文献[4][5]。LoRA（Low-Rank Adaptation）的本质就是奇异值分解，使用包含矩阵能量的秩来近似和还原原始矩阵，这样就可以将平方复杂度转换为线性复杂度了。本人读研期间做了很长时间的概率矩阵分解，对此有所理解。核心代码如下所示：

3.加载LoRA微调模型

加载LoRA微调模型需要通过PEFT加载预训练模型参数和微调模型参数，base_model_name_or_path为预训练模型参数保存路径，finetune_model_path为微调模型参数保存路径。核心代码如下所示：

4.模型量化和加载方式

模型量化和LoRA微调具体实现代码train/sft/finetune_clm_lora.py参考文献[3]。修改ModelArguments类中的load_in_bits: Optional[int] = field(default=4)。本质上就是先对模型做量化，然后再LoRA微调。核心代码如下所示：

参考文献

[1] llama2 hf：https://huggingface.co/blog/llama2

[2] 全参数微调时，报没有target_modules变量：https://github.com/FlagAlpha/Llama2-Chinese/issues/169

[3] finetune_clm_lora.py：https://github.com/ai408/nlp-engineering/blob/main/20230916_Llama2-Chinese/train/sft/finetune_clm_lora.py

[4] peft github：https://github.com/huggingface/peft

[5] peft hf：https://huggingface.co/docs/peft

[6] LoRA论文：https://arxiv.org/pdf/2106.09685.pdf

LoRA微调和模型量化​

LoRA微调和模型量化