ChatGPT第二弹:PPO算法

2024年8月12日修改
哈工大SCIR|阅读原文
转载请联系原作者取得授权
📌
原创作者:陈一帆
转载须标注出处:哈工大SCIR
1. ChatGPT与PPO算法
在上篇文章中我们提到,ChatGPT的训练过程主要分为三步:微调GPT-3模型、人工对微调后模型的生成结果打分以训练得到一个奖励模型、 基于微调后的GPT-3结合奖励模型采用强化学习的方法更新策略。而第三步中强化学习的方法为OpenAI于2017年提出的Proximal Policy Optimization(PPO)算法。PPO算法提出后应用场景相当广泛,包含图像识别 [1] 、机械臂控制 [2] 、电子游戏 [3] 以及今天的ChatGPT。OpenAI基于PPO算法设计的AI程序OpenAI Five甚至在2019年4月13日击败了Dota 2世界冠军战队OG [4] 。
在接下来的部分中,我们会在第二章中介绍强化学习的基础知识,第三章中介绍PPO算法论文并对其中的公式进行推导。
2. 强化学习基础
以下内容参考OpenAI Spinning Up [5] ,其为OpenAI公开的一份关于深度强化学习的教育资源。
2.1 基本定义
附件不支持打印

加载失败,