QLoRA：4-bit级别的量化+LoRA方法，用3090在DB-GPT上打造基于33B LLM的个人知识库

2024年9月2日修改

作者：陆淳

原文： https://zhuanlan.zhihu.com/p/634516...

一、背景

大型语言模型（LLM）的发展日新月异，是近年来自然语言处理（NLP）领域的热门话题，LLM可以通过大规模的无监督预训练来学习丰富的语言知识，并通过微调来适应不同的下游任务，从而在各种NLP任务上取得了令人瞩目的性能。然而，LLM也带来了一些挑战，其中一个便是它们的巨大规模和高昂的计算成本。例如，微调LLaMA的65B模型需要超过780G的显存，在BLOOM-176B上进行推理，需要8个80GB的A100 gpu(每个约1.5万美元)。这远远超出了普通用户和研究者的可用资源。虽然最近出现的一些量化方法可以减少LLM的内存占用量，但是这些技术仅适用于推理，并不适合在训练过程中使用。因此，如何在保持或提高性能的同时，降低LLM的内存占用和训练时间，是一个急需解决的问题。

附件不支持打印

加载失败，

5月24日华盛顿大学在《 QLORA: Efficient Finetuning of Quantized LLMs 》这篇文章中提出了一种针对LLM的低精度量化和高效微调技术，可以在保证完整的fp16的微调任务性能的同时，减少内存使用，从而能够在单个48GB显存的 GPU上微调65B参数模型。作者 Tim Dettmers 在 huggingface 上已经公布了他们利用QLoRA方法训练的系列模型Guanaco，其中33b和65b的模型可以直接下载使用，7b和13b的模型需要和对应的LLaMA模型进行参数融合。同时作者表明Guanaco在Vicuna基准测试中的表现超过了所有以前公开发布的模型，在24 小时内微调的Guanaco 65B大模型甚至能够达到chatgpt性能水平的99.3% 。以下是华盛顿大学的作者所公布的数据：

QLoRA：4-bit级别的量化+LoRA方法，用3090在DB-GPT上打造基于33B LLM的个人知识库​

QLoRA：4-bit级别的量化+LoRA方法，用3090在DB-GPT上打造基于33B LLM的个人知识库