o1专题 / 推理/RL(知乎阅读)

4月11日修改
2024年10月15日创建
4461
5078
Do We Really Need Reverse KL or Forward KL in LLM RLHF?
在强化学习 PPO 算法中,为什么可以把 KL 散度直接放进负奖励?
《从零实现强化学习、RLHF、AlphaZero》-4:基于策略的强化学习2-理论基础补充、TRPO、PPO
影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现)
零基础的强化学习笔记
国内哪些教授在强化学习 (Reinforcement Learning)领域有好的工作?
强化学习在物理世界里落地还有多久?
生成式奖励模型速览
一篇文章对比MPC与强化学习
2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO
除了微调和DPO之外,还有什么比较好优化大语言模型的方法?
拆解大语言模型RLHF中的PPO
超越DPO之Step-DPO
Superalignment系列论文阅读笔记(3):“零训练成本”对齐大语言模型
不那么显然的 RLHF
回顾·总结·展望「融合RL与LLM思想,探寻世界模型以迈向AGI」