输入“/”快速插入内容

大语言模型微调和PEFT高效微调

2024年10月24日修改
1.
解释说明
🎉
预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。此外,预训练语言模型的成功也开创了NLP研究的新范式,即首先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)。
1.1
预训练阶段
🎉
大模型首先在大量的无标签数据上进行训练,预训练的最终目的是让模型学习到语言的统计规律和一般知识。在这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。需要注意的是,预训练本质上是一个无监督学习过程。
1.2
微调阶段
🎉
预训练好的模型然后在特定任务的数据上进行进一步的训练。这个过程通常涉及对模型的权重进行微小的调整,以使其更好地适应特定的任务。不同于模型预训练过程可以代入无标签样本,深度学习模型微调过程需要代入有标签的样本来进行训练,微调的本质是一个有监督学习过程。
2.
几种微调算法
2.1
在线微调
借助OpenAl提供的在线微调工具进行微调;
在线微调API地址
按照格式要求,准备并上传数据集;
排队、支付费用并等待微调模型训练完成;
赋予微调模型API单独编号,调用API即可使用。
2.2
高效微调
高效微调:State-of-the-art Parameter-Efficient Fine-Tuning (SOTA PEFT),特指部分参数的微调方法,这种方法算力功耗比更高,也是目前最为常见的微调方法;
Fine-Tuning:也可以代指全部微调方法,同时OpenAl中模型微调API的名称也是Fine-Tuning,需要注意的是,OpenAI提供的在线微调方法也是一种高效微调方法,并不是全量微调。
主流高效微调方法包括LoRAPrefix TuningP-TuningPrompt TuningAdaLoRA等;
目前这些方法的实现均已集成至Hugging Face项目的库中,我们可以通过安装和调用Hugging Face的PEFT(高效微调)库,来快速使用这些方法;
高效微调仓库
2.2.1
RLHF
RLHF: Reinforcement Learning from Human Feedback,即基于人工反馈机制的强化学习。最早与2022年4月,由OpenAl研究团队系统总结并提出,并在GPT模型的对话类任务微调中大放异彩,被称为ChatGPT“背后的功臣”;
最早由OpenAl研究团队提出,并用于训练OpenAl的InstructGPT模型,根据OpenAl相关论文说明,基于RLHF训练的InstructGPT模型,在仅拥有1.3B参数量的情况下,输出效果已经和GPT-3 175B模型媲美。这充分说明了RLHF方法的实践效果;
RLHF也是目前为止常用的、最为复杂的基于强化学习的大语言模型微调方法,目前最好的端到端RLHF实现是DeepSpeedChat库,由微软开源并维护。
🎉
步骤1监督微调(SFT)——使用精选的人类回答来微调预训练的语言模型以应对各种查询;
步骤2奖励模型微调——使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比SFT小的)奖励模型(RW);
步骤3RLHF训练——利用 Proximal Policy Optimization(PPO)算法,根据RW模型的奖励反馈进一步微调SFT模型。
AI产品经理特训班-学习大纲(148课时)
特训营寄语:
a.
我们整个AI产品经理特训班,不对纯小白开放,这是对你们的学费负责,敬请理解!
b.
AI产品经理特训班主要从,AI产品全局模块python代码学习AI算法技术AI产品设计AI项目管理0-1带做AI产品AI产品经理求职辅导等全方面培训。
c.
我们的团队老师,基本由互联网大厂从事多年的算法工程师,研发工程师,AI产品经理组成,有着丰富的AI项目经验!详细师资团队见附录!
d.
学习方式包含: 线上直播 + 线上直播答疑 + 图文课件 + 录播课 +一对一带学
e.
学习时间:三个月持续学习,再加三个月陪跑带学
👍
线上学习:直播学习 + 答疑课+ 录播课 +陪跑带学,原价4980元活动价3980元
本期为活动价,之后恢复原价!30人一个班,详细咨询微信:AIGC0002
AI产品经理特训班-学习大纲(148课时)