Post-train 入门（2）：Online RL 中的 GRPO 与 PPO，以及相关概念

原创于 2025-08-06 11:58:28 发布 · 209 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC #python #人工智能 #深度学习 #计算机视觉

AIGC 同时被 3 个专栏收录

97 篇文章

订阅专栏

Diffusion

60 篇文章

订阅专栏

科研

46 篇文章

订阅专栏

Post-train 入门（1）：SFT / DPO / Online RL 概念理解和分类

PPO（Proximal Policy Optimization，近端策略优化）是强化学习中一种广泛使用的策略优化算法，由OpenAI提出。它通过限制策略更新的幅度（“近端”约束）解决传统策略梯度方法中训练不稳定的问题，在保持高性能的同时兼具实现简单、样本效率高的特点，是目前深度强化学习中最流行的算法之一。

以下是PPO及相关强化学习核心概念的对比表格：

概念	核心定义	关键特点	优势	局限性	典型应用
PPO（Proximal Policy Optimization）	基于策略梯度的改进算法，通过KL散度或剪辑（clip）机制限制当前策略与旧策略的差异，确保更新稳定。	1. 使用剪辑目标函数（clip objective）限制策略更新幅度； 2. 结合优势函数（Advantage）估计奖励； 3. 单步更新计算量小，适合大规模模型。	1. 训练稳定，不易发散； 2. 样本效率高于传统策略梯度； 3. 实现简单，易调参。	1. 对超参数（如剪辑系数ε）较敏感； 2. 在连续动作空间中可能收敛到局部最优。	机器人控制、Atari游戏、对话模型策略优化、自动驾驶决策。
TRPO（Trust Region Policy Optimization）	基于信任域（Trust Region）的策略优化算法，通过严格的KL散度约束确保策略更新在“安全范围”内。	1. 用二阶优化（共轭梯度法）求解带KL约束的目标函数； 2. 理论上保证策略改进的单调性。	1. 理论严谨，收敛性有保障； 2. 适合高维动作空间。	1. 实现复杂，计算成本高； 2. 二阶优化在大规模模型中效率低。	早期机器人控制、连续动作空间的强化学习任务。
A2C（Advantage Actor-Critic）	结合策略网络（Actor）和价值网络（Critic）的算法，Critic估计优势函数指导Actor更新。	1. Actor负责生成动作，Critic评估动作价值； 2. 采用异步更新（多线程并行采样）提高效率。	1. 样本效率高于纯策略梯度； 2. 训练速度快，适合并行计算。	1. 训练稳定性依赖Critic的准确性； 2. 异步更新可能导致梯度方差大。	多智能体协作、实时决策任务（如游戏AI）。
DDPG（Deep Deterministic Policy Gradient）	针对连续动作空间的深度强化学习算法，结合DQN和策略梯度，使用确定性策略+探索噪声。	1. Actor输出确定性动作（加噪声探索），Critic估计Q值； 2. 用经验回放和目标网络稳定训练。	1. 适合高维连续动作空间； 2. 解决了DQN无法直接处理连续动作的问题。	1. 探索策略设计复杂； 2. 对超参数敏感，训练不稳定。	机械臂控制、无人机轨迹规划、连续动作的机器人任务。
🔥GRPO（Group Relative Policy Optimization）	PPO的轻量化变体，通过组内样本相对奖励估计优势，无需价值网络，适合生成模型。	1. 用组内奖励归一化替代价值网络； 2. 计算效率高，内存占用低（比PPO少50%）。	1. 适合大规模生成模型（如文本、图像）； 2. 训练速度快，稳定性好。	1. 依赖组内样本质量，对采样策略敏感； 2. 在简单任务上可能不如PPO高效。	文本到图像生成（如SD模型优化）、长文本生成、需要复杂约束的生成任务。
DQN（Deep Q-Network）	基于价值函数的深度强化学习算法，用深度网络近似Q值（状态-动作价值），指导离散动作选择。	1. 用ε-贪婪策略探索，经验回放存储样本； 2. 目标网络减少训练波动。	1. 适合离散动作空间； 2. 开创性地将深度学习与RL结合。	1. 无法直接处理连续动作； 2. 样本效率低，收敛慢。	Atari游戏（如Breakout）、离散动作的决策任务（如推荐系统）。

关键关联总结：

PPO与TRPO：PPO是TRPO的简化版，用剪辑机制替代复杂的二阶优化，在实际应用中更受欢迎。
PPO与GRPO：GRPO是PPO在生成模型场景的适配，通过移除价值网络降低计算成本，更适合大规模生成任务。
Actor-Critic框架：PPO、A2C、DDPG均属于此框架（Actor生成动作，Critic评估价值），而GRPO和DQN分别通过简化Critic或仅依赖价值函数偏离了典型框架。

这些算法共同构成了现代强化学习的核心工具集，选择需根据任务类型（离散/连续动作、生成/决策）、模型规模和计算资源综合判断。

并非所有上述算法都属于在线强化学习（Online RL），部分算法也可用于离线场景（Offline RL），具体取决于训练模式。以下是对各算法的分类说明：

核心概念：在线RL vs 离线RL

在线RL（Online RL）：模型在训练过程中实时与环境交互，通过探索产生新样本（状态、动作、奖励）并立即用于更新策略，依赖动态生成的数据。
离线RL（Offline RL）：模型完全依赖预收集的静态数据集（如历史交互日志）训练，不与环境实时交互，避免了探索风险（如机器人操作中的安全问题）。

各算法的在线/离线属性分类

算法	是否属于在线RL	关键说明
PPO	主要是，但可扩展为离线	标准PPO是在线RL：通过实时与环境交互采样，用新样本更新策略。扩展版本（如Offline PPO）可适配离线数据，但需处理分布偏移问题。
TRPO	主要是	原生设计为在线RL，依赖实时采样的轨迹数据计算信任域约束，离线场景中应用较少（因二阶优化对数据分布敏感）。
A2C	是	基于异步多线程实时采样（Actor并行与环境交互），核心依赖在线探索，无法直接用于离线场景。
DDPG	主要是，但可离线化	标准DDPG是在线RL（用噪声探索实时采样，配合经验回放）；扩展版本（如BCQ、TD3+BC）可改造为离线算法，通过数据过滤解决分布偏移。
🔥GRPO	是	专为生成模型设计，训练中实时生成多组样本并基于相对奖励更新策略，完全依赖在线交互（无预收集数据）。
DQN	主要是	标准DQN通过ε-贪婪策略在线探索并存储样本到经验回放池，本质是在线RL；部分变体（如C51）可尝试离线训练，但效果有限。