输入“/”快速插入内容

ChatGPT第二弹：PPO算法

2024年8月12日修改

哈工大SCIR｜阅读原文

转载请联系原作者取得授权

📌

原创作者：陈一帆

转载须标注出处：哈工大SCIR

1. ChatGPT与PPO算法

在上篇文章中我们提到，ChatGPT的训练过程主要分为三步：微调GPT-3模型、人工对微调后模型的生成结果打分以训练得到一个奖励模型、 基于微调后的GPT-3结合奖励模型采用强化学习的方法更新策略。而第三步中强化学习的方法为OpenAI于2017年提出的Proximal Policy Optimization（PPO）算法。PPO算法提出后应用场景相当广泛，包含图像识别 [1] 、机械臂控制 [2] 、电子游戏 [3] 以及今天的ChatGPT。OpenAI基于PPO算法设计的AI程序OpenAI Five甚至在2019年4月13日击败了Dota 2世界冠军战队OG [4] 。​

在接下来的部分中，我们会在第二章中介绍强化学习的基础知识，第三章中介绍PPO算法论文并对其中的公式进行推导。​

2. 强化学习基础

以下内容参考OpenAI Spinning Up [5] ，其为OpenAI公开的一份关于深度强化学习的教育资源。​

2.1 基本定义

common.docs_name - LarkCCM_Docs_Menu_Image

图 1强化学习示意图

ChatGPT第二弹：PPO算法​

ChatGPT第二弹：PPO算法