- o1专题 / 推理/RL(知乎阅读)
- RL细节为王
- Rank-R1 通过强化学习增强基于LLM的文档重排序模型的推理能力
- 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U9RL中的约束与安全
- 强化学习发展这十年
- DeepSeek V3/R1 推理效率分析(3):Decode 配置泛化讨论
- 摸着Logic-RL,复现7B - R1 zero
- 强化学习在量化交易领域如何应用?
- zero-rl几个比较关键的问题
- RL+LLM训练常见问题解答
- LLM Reasoning(番外1):R1、S1、k1.5等等
- LLM Reasoning(十一):Agent for Reasoning
- 复现和改进deepseek-r1的一些tips
- DeepSearch复现篇:QwQ-32B ToolCall功能初探,以Agentic RAG为例
- 思考Bradley-Terry和Reward Modeling这一年 Part2-4: 标注效率,多样偏好,RM研究框架,和Embedding-based RM的未来
- 强化学习从零到RLHF(八)一图拆解RLHF中的PPO
- 大模型强化学习训练中的KL Loss梯度估计
- 实测单卡5090D部署满血DeepSeek-R1过程
- OpenRLHF&Verl参数转换指南
- VeRL中基于Ray的执行流程源码解析
- 【AI Infra】【RLHF框架】二、VeRL中colocate实现源码解析
- 品鉴一下OpenRLHF和verl的系统设计
- OpenRLHF参数指南
- Deepseek-R1-Zero复现实验
- 备忘:LLM 的 RLHF 之 (半RL的)KTO
- DeepSeek-V3 / R1 推理系统概览
- 通俗解读复现LLM强化学习中常用的三大采样方法aha时刻(R1-Zero)
- 浅谈 RL 里面的 KL 散度
- 多模态o1模型LLaVA-o1
- O1 Replication Journey – Part 2
- Generative PRM, PPO and Test-time Scaling
- DPO训练细节问题?
- RLHF入门学习路线梳理
- RLHF 对齐之 REINFORCE++ 算法 - 比 GRPO 稳定比PPO快
- LLM o1 中的蒙特卡洛树搜索算法
o1专题 / 推理/RL(知乎阅读)
o1专题 / 推理/RL(知乎阅读)
4月11日修改
2024年10月15日创建
4461
5078
Do We Really Need Reverse KL or Forward KL in LLM RLHF?
在强化学习 PPO 算法中,为什么可以把 KL 散度直接放进负奖励?
《从零实现强化学习、RLHF、AlphaZero》-4:基于策略的强化学习2-理论基础补充、TRPO、PPO
影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现)
零基础的强化学习笔记
国内哪些教授在强化学习 (Reinforcement Learning)领域有好的工作?
强化学习在物理世界里落地还有多久?
生成式奖励模型速览
一篇文章对比MPC与强化学习
2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO
除了微调和DPO之外,还有什么比较好优化大语言模型的方法?
拆解大语言模型RLHF中的PPO
超越DPO之Step-DPO
Superalignment系列论文阅读笔记(3):“零训练成本”对齐大语言模型
不那么显然的 RLHF
回顾·总结·展望「融合RL与LLM思想,探寻世界模型以迈向AGI」