- ChatGPT第二弹:PPO算法
- 1. ChatGPT与PPO算法
- 2. 强化学习基础
- 2.1 基本定义
- 2.2 Model-Free vs Model-Based, Value-Based vs Policy-Based, off-policy vs on-policy
- 2.3 强化学习基础小结
- 3. PPO论文讲解
- 3.1 策略梯度定理
- 3.2 信赖域策略优化算法(Trust Region Policy Opitimization)
- 3.3 CLIP
- 3.4 Adaptive KL Penalty Coefficient
- 3.5 算法
- 3.6 实验
- 3.6.1 不同目标函数的对比
- 3.6.2 连续空间下与其他算法的对比
- 3.6.3 连续空间下示例
- 3.6.4 雅达利(游戏)中与其他算法的对比
- 3.7 论文总结
- 4 总结与思考
- 参考文献
- 作者简介
ChatGPT第二弹:PPO算法
ChatGPT第二弹:PPO算法
2024年8月12日修改
📌
原创作者:陈一帆
转载须标注出处:哈工大SCIR
1. ChatGPT与PPO算法
在上篇文章中我们提到,ChatGPT的训练过程主要分为三步:微调GPT-3模型、人工对微调后模型的生成结果打分以训练得到一个奖励模型、 基于微调后的GPT-3结合奖励模型采用强化学习的方法更新策略。而第三步中强化学习的方法为OpenAI于2017年提出的Proximal Policy Optimization(PPO)算法。PPO算法提出后应用场景相当广泛,包含图像识别 [1] 、机械臂控制 [2] 、电子游戏 [3] 以及今天的ChatGPT。OpenAI基于PPO算法设计的AI程序OpenAI Five甚至在2019年4月13日击败了Dota 2世界冠军战队OG [4] 。
在接下来的部分中,我们会在第二章中介绍强化学习的基础知识,第三章中介绍PPO算法论文并对其中的公式进行推导。
2. 强化学习基础
以下内容参考OpenAI Spinning Up [5] ,其为OpenAI公开的一份关于深度强化学习的教育资源。
2.1 基本定义
附件不支持打印
加载失败,