强化学习笔记_7_策略学习中的Baseline

最新推荐文章于 2024-08-09 12:25:25 发布

k_kun

最新推荐文章于 2024-08-09 12:25:25 发布

阅读量466

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：学习算法

本文链接：https://blog.csdn.net/k_kun/article/details/128506195

强化学习专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨了强化学习中的策略梯度算法，解释了策略网络和状态值函数的作用。引入基线函数以降低蒙特卡洛估计的方差，通过实例说明了如何使用状态值作为基线，并分析了其对算法收敛速度的影响。此外，还对比了带有基线的策略梯度（Reinforce）与Advantage Actor-Critic（A2C）算法的差异，重点讨论了A2C中多步目标（TD目标）的应用及其优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Policy Gradient with Baseline

1.1 Policy Gradient

policy network $π(a∣s;θ)\pi(a|s;\theta)$
State-value function:
$\begin{aligned} V_\pi(s)&=E_{A\sim\pi}[Q_\pi(s,A)] \\&=\sum_a\pi(s|s;\theta)\cdot Q_\pi(s,a) \end{aligned}$
Policy gradient:
$\frac{\partial V_\pi(s)}{\partial\theta}=E_{A\sim\pi}[\frac{\partial \ln\pi(A|s;\theta)}{\partial\theta}\cdot Q_\pi(s,A)]$

1.2. Baseline in Policy Gradient

Baseline 函数 $b$ ，不依赖于动作 $A$
性质：如果 $b$ 与 $A$ 无关，则 $EA∼π[b⋅∂ln⁡π(A∣s;θ)∂θ]=0E_{A\sim\pi}[b\cdot \frac{\partial\ln\pi(A|s;\theta)}{\partial\theta}]=0$
$\begin{aligned} E_{A\sim\pi}[b\cdot \frac{\partial\ln\pi(A|s;\theta)}{\partial\theta}]&= b\cdot E_{A\sim\pi}[\frac{\partial\ln\pi(A|s;\theta)}{\partial\theta}] \\&=b\cdot \sum_a\pi(a|s;\theta)\cdot \frac{\partial\ln\pi(a|s;\theta)}{\partial\theta} \\&=b\cdot \sum_a\pi(a|s;\theta)\cdot \frac{1}{\pi(a|s;\theta)}\frac{\partial\pi(a|s;\theta)}{\partial\theta} \\&=b\cdot \sum_a\frac{\partial\pi(a|s;\theta)}{\partial\theta} \\&=b\cdot \frac{\partial\sum_a\pi(a|s;\theta)}{\partial\theta} \\&=b\cdot \frac{1}{\partial\theta} \\&=0 \end{aligned}$
policy gradient
$\begin{aligned} \frac{\partial V_\pi(s)}{\partial\theta} &=E_{A\sim\pi}[\frac{\partial \ln(\pi(A|s;\theta))}{\partial\theta}·Q_\pi(s,A)] \\&=E_{A\sim\pi}[\frac{\partial \ln(\pi(A|s;\theta))}{\partial\theta}·Q_\pi(s,A)] -E_{A\sim\pi}[b\cdot \frac{\partial\ln\pi(A|s;\theta)}{\partial\theta}] \\&=E_{A\sim\pi}[\frac{\partial \ln(\pi(A|s;\theta))}{\partial\theta}·(Q_\pi(s,A)-b)] \end{aligned}$
即：
$\begin{aligned} \frac{\partial V_\pi(s_t)}{\partial\theta} =E_{A\sim\pi}[\frac{\partial \ln(\pi(A_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,A_t)-b)] \end{aligned}$
在实际计算中常使用蒙特卡洛近似， $b$ 不会影响方差，但是会影响蒙特卡洛近似，合理取值可以减小蒙特卡洛的方差，使收敛更快。

1.3. Monte Carlo Approximation

$\begin{aligned} g(A_t)&=\frac{\partial \ln(\pi(A_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,A_t)-b) \\\frac{\partial V_\pi(s_t)}{\partial\theta} &=E_{A\sim\pi}[\frac{\partial \ln(\pi(A_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,A_t)-b)] \\&=E_{A\sim\pi}[g(A_t)] \end{aligned}$

以概率密度函数 $at∼π(⋅∣st;θ)a_t\sim\pi(·|s_t;\theta)$ 抽样得到行动 $a_t$ ，计算得到 $g(a_t)$ 为其期望的蒙特卡洛近似，也是对策略梯度的一个无偏估计。

Stochastic Policy Gradient（梯度上升）
$\begin{aligned} g(a_t)&=\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,a_t)-b) \\\theta&\leftarrow \theta+\beta\cdot g(a_t) \end{aligned}$
$b$ 与 $A_t$ 无关，故不会影响 $g(A_t)$ 的期望，但是会影响其方差。如果选取的 $b$ 很接近于 $QπQ_\pi$ ，则方差会很小。

1.4. Choices of Baseline

Choice 1: $b = 0$ ，不使用Baseline
Choice 2: $b$ is state-value, $b=Vπ(st)b=V_\pi(s_t)$

状态 $s_t$ 是先于 $A_t$ 被观测到的，于是和 $A_t$ 无关。

（有点像Dueling network，使用优势函数）

2. Reinforce with Baseline

2.1. Policy Gradient

使用 $Vπ(st)V_\pi(s_t)$ 作为Baseline：
$\begin{aligned} g(A_t)&=\frac{\partial \ln(\pi(A_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,A_t)-V_\pi(s_t)) \\\frac{\partial V_\pi(s_t)}{\partial\theta} &=E_{A\sim\pi}[\frac{\partial \ln(\pi(A_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,A_t)-V_\pi(s_t))] \\&=E_{A\sim\pi}[g(A_t)] \end{aligned}$

2.2. Approximation

随机抽样得到行动 $at∼π(⋅∣st;θ)a_t\sim\pi(·|s_t;\theta)$ ，得到Stochastic Policy Gradient：
$g(a_t)=\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,a_t)-V_\pi(s_t))$
对 $Qπ(st,at)Q_\pi(s_t,a_t)$ 近似
$Q_\pi(s_t,a_t)=E[U_t|s_t,a_t]$
使用观测到的回报 $u_t$ 近似 $Qπ(st,at∼ut)Q_\pi(s_t,a_t\sim u_t)$ ：
- 观测到一条完整轨迹： $s_t,a_t,r_t,s_{t+1},a_{t+1},r_{t+1},···,s_n,a_n,r_n$
- 计算回报： $ut=∑i=tnγi−t⋅riu_t=\sum_{i=t}^n \gamma^{i-t}\cdot r_i$
- 使用 $u_t$ 作为 $Qπ(st,at)Q_\pi(s_t,a_t)$ 的无偏估计
对 $Vπ(st)V_\pi(s_t)$ 近似，使用神经网络value network $v (s; w)$ 近似

三次Approximation后得到的结果为：
$\frac{\partial V_\pi(s_t)}{\partial\theta}\approx g(a_t) \approx \frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(u_t-v(s_t,w))$

2.3. Policy and Value Network

Policy Network
Value Network
Parameter Sharing

2.4. Reinforce with Baseline

Updating the policy network

Policy gradient: $∂Vπ(st)∂θ≈∂ln⁡(π(at∣st;θ))∂θ⋅(ut−v(st,w))\frac{\partial V_\pi(s_t)}{\partial\theta}\approx \frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(u_t-v(s_t,w))$

Gradient ascent: $θ←θ+β⋅∂ln⁡(π(at∣st;θ))∂θ⋅(ut−v(st,w))\theta\leftarrow\theta+\beta\cdot\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(u_t-v(s_t,w))$

令
$\delta_t=v(s_t;w)-u_t$
则Gradient ascent也可表示为：
$\theta\leftarrow\theta-\beta\cdot\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·\delta_t$
Updating the value network

使 $v(s_t;w)$ 接近 $Vπ(st)=E[Ut∣st]V_\pi(s_t)=E[U_t|s_t]$ ，使用观测值 $u_t$ 进行拟合。
- Prediction error: $δt=v(st,w)−ut\delta_t=v(s_t,w)-u_t$
- Gradient: $∂δt2/2∂w=δt⋅∂v(st;w)∂w\frac{\partial\delta_t^2/2}{\partial w}=\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$
- Gradient descent: $w←w−α⋅δt⋅∂v(st;w)∂ww\leftarrow w-\alpha\cdot\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$

在这里插入图片描述

3. Advantage Actor-Critic (A2C)

3.1. Actor and Critic

使用2.中相同结构的神经网络，但是训练方法不同。与之前Actor-Critic不同的是，这里使用状态价值而不是行动价值，状态价值只与当前状态相关，更容易训练。

在这里插入图片描述

3.2. Training of A2C

Observe a transition $s_t,a_t,r_t,s_{t+1})$
TD target $yt=rt+γ⋅v(st+1;w)y_t=r_t+\gamma\cdot v(s_{t+1};w)$
TD error $δt=v(st;w)−yt\delta_t=v(s_t;w)-y_t$
Update the policy network (actor) by:
$\theta\leftarrow\theta-\beta\cdot\delta_t\cdot\frac{\partial\ln\pi(a_t|s_t;\theta)}{\partial\theta}$
Update the value network (critic) by:
$w\leftarrow w-\alpha\cdot\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$

3.3.算法的数学推导

Value functions

在TD算法中已经得到： $Qπ(st,at)=ESt+1,At+1[Rt+γ⋅Qπ(St+1,At+1)]Q_\pi(s_t,a_t)=E_{S_{t+1},A_{t+1}}[R_t+\gamma·Q_\pi(S_{t+1},A_{t+1})]$

由于 $R_t$ 与 $S_{t+1}$ 相关而与 $A_{t+1}$ 无关， $Qπ(St+1,At+1)Q_\pi(S_{t+1},A_{t+1})$ 与两者都有关，于是继续得到：
$\begin{aligned} Q_\pi(s_t,a_t)&=E_{S_{t+1}}[R_t+\gamma·E_{A_{t+1}}[Q_\pi(S_{t+1},A_{t+1})] \\&=E_{S_{t+1}}[R_t+\gamma·V_\pi(S_{t+1})] \end{aligned}$
- Theorem 1: $Qπ(st,at)=ESt+1[Rt+γ⋅Vπ(St+1)]Q_\pi(s_t,a_t)=E_{S_{t+1}}[R_t+\gamma·V_\pi(S_{t+1})]$
继续利用价值函数的定义 $Vπ(st)=EAt[Qπ(st,At)]V_\pi(s_t)=E_{A_t}[Q_\pi(s_t,A_t)]$ ，得到
$V_\pi(s_t)=E_{A_t}[E_{S_{t+1}}[R_t+\gamma·V_\pi(S_{t+1})]]$
- Theorem 2: $Vπ(st)=EAt,St+1[Rt+γ⋅Vπ(St+1)]V_\pi(s_t)=E_{A_t,S_{t+1}}[R_t+\gamma·V_\pi(S_{t+1})]$
Monte Carlo approximations

观测得到一个transition，对Theorem 1和Theorem 2进行蒙特卡洛近似：
$\begin{aligned} Q_\pi(s_t,a_t)&=r_t+\gamma·V_\pi(s_{t+1}) \\V_\pi(s_t)&=r_t+\gamma·V_\pi(s_{t+1}) \end{aligned}$
Updating policy network

带有Baseline的策略梯度下降: $g(at)=∂ln⁡(π(at∣st;θ))∂θ⋅(Qπ(st,at)−Vπ(st))g(a_t)=\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(Q_\pi(s_t,a_t)-V_\pi(s_t))$

对 $Qπ(st,at)Q_\pi(s_t,a_t)$ 进行蒙特卡洛近似: $g(at)=∂ln⁡(π(at∣st;θ))∂θ⋅rt+γ⋅Vπ(st+1)−Vπ(st))g(a_t)=\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·r_t+\gamma·V_\pi(s_{t+1})-V_\pi(s_t))$

使用value network $v (s; w)$ 对 $Vπ(st)V_\pi(s_t)$ 进行拟合:
$g(a_t)=\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(r_t+\gamma·v(s_{t+1};w)-v(s_t;w))$
TD target: $yt=rt+γ⋅v(st+1;w)y_t=r_t+\gamma\cdot v(s_{t+1};w)$
$g(a_t)=\frac{\partial \ln(\pi(a_t|s_t;\theta))}{\partial\theta}·(y_t-v(s_t;w))$
梯度上升:
$\theta\leftarrow\theta-\beta\cdot\delta_t\cdot\frac{\partial\ln\pi(a_t|s_t;\theta)}{\partial\theta}$
Updating value network

使用value network $v (s; w)$ 对 $Vπ(st)V_\pi(s_t)$ 进行拟合：
$V(s_t;w)\approx r_t+\gamma·V(s_{t+1};w)=y_t$
TD error: $δt=v(st;w)−yt\delta_t=v(s_t;w)-y_t$

Gradient: $∂δt2/2∂w=δt∂v(st;w)∂w\frac{\partial \delta_t^2/2}{\partial w}=\delta_t\frac{\partial v(s_t;w)}{\partial w}$

Gradient descent: $w←w−α⋅δt⋅∂v(st;w)∂ww\leftarrow w-\alpha\cdot\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$

4. ReinForce versus A2C

4.1 Policy and Value Networks

两种算法的网络结构相同，都包括价值网络和策略网络。Reinforce with Baseline中，价值网络仅作为Baseline以降低随机梯度造成的方差；A2C中的价值网络用于对actor进行评价（critic）。

从算法流程上看，两种算法仅在TD target和error的部分有差别。Reinforce使用了真实的观测值Return，而A2C使用了TD target，部分基于观测值，部分基于预测值。

对于Multi-Step TD target，在只计算一步的情况下，为one-step TD target；在计算所有步的情况下，则变为 $ut=∑i=tnγi−t⋅riu_t=\sum_{i=t}^n\gamma^{i-t}\cdot r_i$ ，A2C算法与Reinforce相同。Reinforce是A2C算法的一个特例。

4.2 A2C with Multi-Step TD Target

one-Step TD Target:
$y_t=r_t+\gamma\cdot v(s_{t+1};w)$
m-Step TD Target:
$y_t=\sum_{i=0}^{m-1}\gamma^i\cdot r_{t+i}+\gamma^m\cdot v(s_{t+m};w)$
在这里插入图片描述