强化学习笔记_5_TD-Learning_td learning算法实现-CSDN博客

本文链接：https://blog.csdn.net/k_kun/article/details/128506153

本文深入探讨了Sarsa和Q-Learning两种强化学习算法，详细阐述了它们的目标函数、TD目标计算以及在表格和神经网络版本中的实现。同时，介绍了多步TD目标的概念，揭示了使用多步回报在训练中的优势。通过对这两种算法的比较，突显了它们在策略更新和最优策略估计上的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.Sarsa算法

每次使用五元组 $s_t,a_t,r_t,s_{t+1},a_{t+1})$ 更新参数，即State-Action-Reward-State-Action (SARSA)

1.0.Derive TD Target

Discounted Return, $R_t$ depends on $S_t,A_t,S_{t+1})$
$\begin{aligned} U_t&=R_t+\gamma·R_{t+1}+\gamma^2·R_{t+2}··· \\&=R_t+\gamma·(R_{t+1}+\gamma·R_{t+2}···) \\&=R_t+\gamma·U_{t+1} \end{aligned}$

$\begin{aligned} Q_\pi(s_t,a_t)&=E[U_t|s_t,a_t] \\&=E[R_t+\gamma·U_{t+1}|s_t,a_t] \\&=E[R_t|s_t,a_t]+\gamma·E[U_{t+1}|s_t,a_t] \\&=E[R_t|s_t,a_t]+\gamma·E[Q_\pi(S_{t+1},A_{t+1})|s_t,a_t] \end{aligned}$

Identity: $Qπ(st,at)=E[Rt+γ⋅Qπ(St+1,At+1)]Q_\pi(s_t,a_t)=E[R_t+\gamma·Q_\pi(S_{t+1},A_{t+1})]$ , for all $π\pi$ .

蒙特卡洛近似: $Qπ(st,at)≈rt+γQπ(st+1,at+1)=ytQ_\pi(s_t,a_t)\approx r_t+\gamma Q_\pi(s_{t+1},a_{t+1})=y_t$

$y_t$ 为TD Target

1.1.Tabular Version

适用于规模较小、表格较小的问题，由状态和动作组成 $Q$ 表，使用Sarsa算法更新表格。

观测得到transition $s_t,a_t,r_t,s_{t+1}$
根据策略 $π(⋅∣St+1)\pi(·|S_{t+1})$ 采样得到动作 $a_{t+1}$
TD target: $yt=rt+γ⋅Qπ(st+1,at+1)y_t=r_t+\gamma·Q_\pi(s_{t+1},a_{t+1})$ ，其中 $Qπ(st+1,at+1)Q_\pi(s_{t+1},a_{t+1})$ 查表得到
TD error: $δt=Qπ(st,at)−yt\delta_t=Q_\pi(s_t,a_t)-y_t$
更新 $Q$ 表: $Qπ(st,at)←Qπ(st,at)−α⋅δtQ_\pi(s_t,a_t)\leftarrow Q_\pi(s_t,a_t)-\alpha·\delta_t$

1.2.Neural Network Version

使用神经网络value network $q (s, a; w)$ 近似计算 $Qπ(s,a)Q_\pi(s,a)$

TD target: $yt=rt+γ⋅q(st+1,at+1;w)y_t=r_t+\gamma·q(s_{t+1},a_{t+1};w)$
TD error: $δt=q(st,at;w)−yt\delta_t=q(s_t,a_t;w)-y_t$
Loss: $δt2/2\delta_t^2/2$
Gradient: $∂δt2/2∂w=δt⋅∂q(st,at;w)∂w\frac{\partial \delta^2_t/2}{\partial w}=\delta_t·\frac{\partial q(s_t,a_t;w)}{\partial w}$
Gradient descent: $w←w−α⋅δ⋅∂q(st,at;w)∂ww\leftarrow w-\alpha·\delta·\frac{\partial q(s_t,a_t;w)}{\partial w}$

2.Q-Learning

比较Q-Learning和Sarsa：

	Sarse	Q-Learning
目标函数	$Qπ(s,a)Q_\pi(s,a)$	$Q^*(s,a)$
TD target	$yt=rt+γ⋅Qπ(st+1,at+1)y_t=r_t+\gamma·Q_\pi(s_{t+1},a_{t+1})$	$yt=rt+γ⋅max⁡aQ∗(st+1,a)y_t=r_t+\gamma·\max_a Q^*(s_{t+1},a)$
参数更新	value network; critic	DQN

2.0.TD Target

在1.0中已经计算，对于策略 $π\pi$ ：
$Q_\pi(s_t,a_t)=E[R_t+\gamma·Q_\pi(S_{t+1},A_{t+1})]$
对于最优策略optimal policy $π∗\pi^*$ ：
$Q^*(s_t,a_t)=E[R_t+\gamma·Q^*(S_{t+1},A_{t+1})]$
取行动 $A_{t+1}$ 为 $A_{t+1}=\arg\max_a Q^*(S_{t+1},a)$ ，

则 $Q^*(S_{t+1},A_{t+1})=\max_a Q^*(S_t+1,a)$
$Q^*(s_t,a_t)=E[R_t+\gamma·\max_a Q^*(S_{t+1},a)]$
使用蒙特卡洛近似，得到TD target $y_t$ ：
$Q^*(s_t,a_t)\approx r_t+\gamma·\max_a Q^*(s_{t+1},a)=y_t$

2.1.Tabular Version

适用于规模较小、表格较小的问题，由状态和动作组成 $Q^*$ 表，使用Q-Learning算法更新表格。

观测得到transition $s_t,a_t,r_t,s_{t+1}$
TD target: $yt=rt+γ⋅max⁡aQ∗(st+1,a)y_t=r_t+\gamma·\max_a Q^*(s_{t+1},a)$ ，在 $s_{t+1}$ 对应的行动中，找到表格值最大的一项
TD error: $δt=Q∗(st,at)−yt\delta_t=Q^*(s_t,a_t)-y_t$
更新 $Q$ 表: $Q∗(st,at)←Q∗(st,at)−α⋅δtQ^*(s_t,a_t)\leftarrow Q^*(s_t,a_t)-\alpha·\delta_t$

2.2.DQN Version

使用DQN网络 $Q (s, a; w)$ 近似计算 $Q^*(s,a)$ ，控制agent执行行动 $a_t=\arg\max_a Q(s_t,a;w)$

可使用Q-Learning算法训练DQN：

观测得到transition $s_t,a_t,r_t,s_{t+1}$
TD target: $yt=rt+γ⋅max⁡aQ(st+1,a;w)y_t=r_t+\gamma·\max_a Q(s_{t+1},a;w)$
TD error: $δt=Q(st,at;w)−yt\delta_t=Q(s_t,a_t;w)-y_t$
Loss: $δt2/2\delta_t^2/2$
Gradient: $∂δt2/2∂w=δt⋅∂Q(st,at;w)∂w\frac{\partial \delta^2_t/2}{\partial w}=\delta_t·\frac{\partial Q(s_t,a_t;w)}{\partial w}$
Gradient descent: $w←w−α⋅δ⋅∂Q(st,at;w)∂ww\leftarrow w-\alpha·\delta·\frac{\partial Q(s_t,a_t;w)}{\partial w}$

3.Multi-Step TD Target

3.0

之前的算法中，只使用了一步的Reward进行训练，如果使用多步的Reward，可以得到更好的效果。

3.1.Multi-Step Return

$U_t=R_t+\gamma·U_{t+1}$

对上式进行递归，得到：
$\begin{aligned} U_t&=R_t+\gamma·(R_{t+1}+\gamma·U_{t+2}) \\&=R_t+\gamma·R_{t+1}+\gamma^2·U_{t+2} \end{aligned}$
继续递归：
$U_t=\sum_{i=0}^{m-1}\gamma^i·R_{t+i}+\gamma^m·U_{t+m}$

3.2.Multi-Step TD Target

m-step TD target for Sarsa:
$y_t=\sum_{i=0}^{m-1}\gamma^i·r_{t+i}+\gamma^m·Q_\pi(s_{t+m},a_{t+m})$
m-step TD target for Q-Learning
$y_t=\sum_{i=0}^{m-1}\gamma^i·r_{t+i}+\gamma^m·\max_aQ^*(s_{t+m},a)$
s_{t+m},a_{t+m})
$$
m-step TD target for Q-Learning
$y_t=\sum_{i=0}^{m-1}\gamma^i·r_{t+i}+\gamma^m·\max_aQ^*(s_{t+m},a)$