目录
什么是强化学习(RL),它与监督学习和无监督学习的根本区别?
RL 中的 agent、environment、state、action、reward 各指什么?
policy、value function、action-value function 的概念与作用分别是什么?
on‑policy 方法与 off‑policy 方法的区别?举例说明。
Model‑based 和 model‑free 强化学习有何差异?
PPO(Proximal Policy Optimization)的核心思想是什么?
为什么 PPO 会限制 policy 更新?这样做的目的是什么?
PPO 中 KL divergence 如何体现?为何不直接用 TRPO 的方法?
PPO 在 OpenAI、游戏或机器人控制中为何被广泛使用?
Actor–Critic 架构是如何设计的?actor 和 critic 的职责是什么?
什么是 DPO(Direct Preference Optimization)?它为何出现?
实验显示 PPO 在某些 RLHF 基准(如对话、代码生成)表现更好是为什么?
强化学习中的 RLHF(RL from Human Feedback)常有哪些阶段?
阶段二:监督微调(Supervised Fine-Tuning, SFT)
阶段三:奖励模型训练(Reward Model Training)
阶段四:强化学习优化(Reinforcement Learning Optimization)
阶段五:人类反馈迭代(Human Feedback Iteration)
在 RLHF 中,为什么价值估计(value function)会被训练?
policy gradient 方法收敛性为何不稳定?解决方案有哪些?
在 deep RL 中,为什么需要 target network、entropy bonus、梯度裁剪等机制?
PPO 如何用于 AlphaGo 或 OpenAI Five?
在资源分配、金融交易中如何设计 reward 使 RL 有效?
RLHF 训练时 reward model 验证与 early stopping 如何设计?
RL agent 训练过程可能出现的稳定性问题有哪些?如何检测?
PPO 和 DPO 在 GPU 或分布式训练时的资源瓶颈有哪些?
什么是强化学习(RL),它与监督学习和无监督学习的根本区别?
强化学习是一种机器学习范式,其核心思想是让智能体(