- QLoRA:4-bit级别的量化+LoRA方法,用3090在DB-GPT上打造基于33B LLM的个人知识库
- 一、背景
- 二、QLoRA
- 1、Fine-Tuning
- 1.1、 Adapters-Tuning
- 1.2、prompt tuning (P-tuning v2)
- 1.3、LoRA
- 2、Quantize
- 2.1、LLM.int8 量化
- 2.2 、NF4
- 2.3、Double Quantization
- 2.4、Paged Optimizers
- 3、总结
- 4、代码
- 三、 Guanaco+DB-GPT的部署:
- 1、安装DB-GPT
- 2、Guanaco相关
- 3、Guanaco 33B与vicuna 13B在SQL生成方面的对比
- 四、 参考文献
QLoRA:4-bit级别的量化+LoRA方法,用3090在DB-GPT上打造基于33B LLM的个人知识库
QLoRA:4-bit级别的量化+LoRA方法,用3090在DB-GPT上打造基于33B LLM的个人知识库
2024年9月2日修改
作者:陆淳
一、背景
大型语言模型(LLM)的发展日新月异,是近年来自然语言处理(NLP)领域的热门话题,LLM可以通过大规模的无监督预训练来学习丰富的语言知识,并通过微调来适应不同的下游任务,从而在各种NLP任务上取得了令人瞩目的性能。然而,LLM也带来了一些挑战,其中一个便是它们的 巨大规模和高昂的计算成本 。例如,微调LLaMA的65B模型需要超过780G的显存,在BLOOM-176B上进行推理,需要8个80GB的A100 gpu(每个约1.5万美元)。这远远超出了普通用户和研究者的可用资源。虽然最近出现的一些量化方法可以减少LLM的内存占用量,但是这些技术仅适用于推理,并不适合在训练过程中使用。因此,如何在保持或提高性能的同时,降低LLM的内存占用和训练时间,是一个急需解决的问题。
附件不支持打印
加载失败,
5月24日华盛顿大学在《 QLORA: Efficient Finetuning of Quantized LLMs 》这篇文章中提出了一种针对LLM的低精度量化和高效微调技术,可以在保证完整的fp16的微调任务性能的同时,减少内存使用,从而能够 在单个48GB显存的 GPU上微调65B参数模型 。作者 Tim Dettmers 在 huggingface 上已经公布了他们利用QLoRA方法训练的系列模型Guanaco,其中33b和65b的模型可以直接下载使用,7b和13b的模型需要和对应的LLaMA模型进行参数融合。同时作者表明Guanaco在Vicuna基准测试中的表现超过了所有以前 公开发布 的模型,在24 小时内微调的Guanaco 65B大模型甚至能够 达到chatgpt性能水平的99.3% 。以下是华盛顿大学的作者所公布的数据: