AI大模型RLHF相关的DPO,PPO,GRPO,DDPG算法解析

在大型模型(Large Models)的增强学习(Reinforcement Learning, RL)中,DPO、PPO、DRPO、DDPG是几种不同但又相互关联的算法,它们在模型的训练、优化和对齐(Alignment)中扮演着重要角色。下面将对这四种算法进行详细解析,并重点阐述它们与大型模型的关联。

1. PPO (Proximal Policy Optimization) - 近端策略优化

核心思想: PPO是一种On-policy(同策略)的Actor-Critic(行动者-评论者)强化学习算法。它旨在通过限制策略更新的幅度,在保持训练稳定性的同时,尽可能大地进行策略更新,以提高数据效率并避免策略过早收敛到局部最优。

工作原理:

  1. Actor-Critic架构:
    • Actor (策略网络/Policy Network): 负责生成动作(在大型模型中,通常是生成下一个token的概率分布)。它接收当前状态(模型输入和已生成的token序列)作为输入,输出每个可能动作的概率。</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贾斯汀玛尔斯

愿我的经历曾为你指明方向

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值