强化学习笔记_8_连续控制

最新推荐文章于 2024-06-16 22:13:47 发布

k_kun

最新推荐文章于 2024-06-16 22:13:47 发布

阅读量562

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：人工智能算法

本文链接：https://blog.csdn.net/k_kun/article/details/128506222

强化学习专栏收录该内容

8 篇文章

订阅专栏

本文探讨了离散控制与连续控制的区别，重点介绍了确定策略梯度（DPG）算法，包括确定性策略网络和价值网络的更新。DPG中，通过目标网络解决Bootstrapping问题，并讨论了改进方法如使用经验回放缓冲区和多步TD目标。同时，文章还对比了离散策略与连续策略，特别是在连续控制中的应用，如使用策略网络和多变量正态分布来生成随机动作。最后，提到了策略梯度方法如REINFORCE和Actor-Critic，并引入基线以提高训练稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 离散控制与连续控制 Discrete VS Continuous Control

Discrete Action Space
Continuous Action Space
DQN算法、Policy Network等可以解决离散控制问题，输出为一个确定维度的向量
Discretization，离散化，将动作空间变为有限的离散空间；适用于维度比较小的问题。

设控制问题的自由度为 $d$ ，则动作空间为 $d$ 维的，离散化时，离散空间内点的数量随着 $d$ 指数增加，导致维数灾难、训练困难。
其他方法：Deterministic policy network; Stochastic policy network.

2. Deterministic Policy Gradient (DPG, 确定策略梯度)

2.1. Deterministic Actor-Critic

deterministic policy network (actor): $a=π(s;θ)a=\pi(s;\theta)$ ，输出不是一个概率，而是一个具体的动作 $a$ ，输出维度为动作空间的维数；
value network (critic): $q (s, a; w)$ ；

2.2. Updating Value Network by TD

Transition: $s_t,a_t,r_t,s_{t+1})$
Value network:
$\begin{aligned} q_t&=q(s,a;w) \\q_{t+1}&=q(s_{t+1},a_{t+1};w),where\quad a_{t+1}'=\pi(s_{t+1};\theta) \end{aligned}$
TD error: $δt=qt−(rt+γ⋅qt+1)\delta_t=q_t-(r_t+\gamma\cdot q_{t+1})$

TD target: $yt=rt+γ⋅qt+1y_t=r_t+\gamma\cdot q_{t+1}$
Update: $w←w−α⋅δt⋅∂q(st,at;w)∂ww\leftarrow w-\alpha\cdot\delta_t\cdot\frac{\partial q(s_t,a_t;w)}{\partial w}$

2.3. Updating Policy Network by DPG

Goal: Increasing $q (s, a; w)$ , where $a=π(s;θ)a=\pi(s;\theta)$

DPG:
$g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a}{\partial \theta}\cdot\frac{\partial q(s,a;w)}{\partial a}g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a}{\partial \theta}\cdot\frac{\partial q(s,a;w)}{\partial a}$
Gradient ascent: $θ←θ+β⋅g\theta\leftarrow \theta+\beta\cdot g$

2.4. Improvement: Using Target Network

Bootstrapping

TD error $δt=qt−(rt+γ⋅qt+1)\delta_t=q_t-(r_t+\gamma\cdot q_{t+1})$ 导致Bootstrapping，如果初始产生了高估（低估），则会导致后续的高估（低谷）。

解决方案：使用不同的网络计算TD target——target networks
target networks
- Value network: $q_t=q(s_t,a_t;w)$
- Value network: $qt+1=q(st+1,at+1′;w−),whereat+1′=π(st+1;θ−)q_{t+1}=q(s_{t+1},a'_{t+1};w^-),where\quad a_{t+1}'=\pi(s_{t+1};\theta^-)$
  
  Target value network: $q(s_{t},a'_{t};w^-)$
  
  Target policy network: $π(st;θ−)\pi(s_{t};\theta^-)$
用到的算法概括如下：

在这里插入图片描述

Updating target network

hyper-parameter $τ∈(0,1)\tau\in(0,1)$ ，使用加权平均 (weighted averaging) 更新参数：
$\begin{aligned} w^-&\leftarrow\tau\cdot w+(1-\tau)\cdot w^- \\\theta^-&\leftarrow\tau\cdot \theta+(1-\tau)\cdot \theta^- \end{aligned}$
target network中的参数依然与原网络相关，故无法完全解决bootstrapping

2.5. Improvements

Target network
Experience relay
Multi-step TD target

2.6. Stochastic Policy VS Deterministic Policy

3. Stochastic Policy for Continuous Control (离散策略)

3.1. Policy Network

Univariate Normal Distribution (单变量正态分布)

考虑单自由度情况，自由度 $d = 1$ ，均值(mean) $μ\mu$ 和标准差(std) $σ\sigma$ 是状态 $s$ 的函数；

使用正态分布的概率密度函数作为策略函数：
$\pi(a|s)=\frac{1}{\sqrt{2\pi}\sigma}\cdot\exp(-\frac{({a-\mu})^2}{2\sigma^2})$
Multivariate Normal Distribution (多变量正态分布)

自由度为 $d$ ，动作空间action $a$ 为 $d$ 维，均值和标准差分别为 $μ,σ:S→Rd\pmb{\mu},\pmb{\sigma}:\mathcal{S}\rightarrow\R^d$ ，输入为状态 $s$ ，输出为 $d$ 维向量。

使用 $μi,σi\mu_i,\sigma_i$ 表示 $μ(s),σ(s)\pmb{\mu}(s),\pmb\sigma(s)$ 的第 $i$ 个分量。假设动作空间内各个维度都是独立的，则PDF：
$\pi(a|s)=\Pi_{i=1}^d \frac{1}{\sqrt{2\pi}\sigma_i}\cdot\exp(-\frac{(a_i-\mu_i)^2}{2\sigma_i^2})$
Function Approximation
- 使用神经网络 $μ(s;θμ)\pmb\mu(s;\pmb\theta^\mu)$ 对均值 $μ(s)\pmb\mu(s)$ 进行近似；
- ~~使用神经网络 $σ(s;θσ)\pmb\sigma(s;\pmb\theta^\sigma)$ 对均值 $σ(s)\pmb\sigma(s)$ 进行近似（效果不好）；~~
- 对方差的对数进行近似，使用神经网络 $ρ(s;θρ)\pmb\rho(s;\theta^\rho)$ 对 $ρ\rho$ 近似
  $\rho_i=\ln\sigma_i^2,i=1,···,d$
Continuous Control
- 观测得到当前状态 $s_t$ ；
- 计算均值和方差 $μ^=μ(s;θμ)\pmb{\hat{\mu}}=\pmb\mu(s;\theta^\mu)$ ，方差 $ρ^=μ(s;θρ),σ^i2=exp⁡(ρ^i)\pmb{\hat{\rho}}=\pmb\mu(s;\theta^\rho),\hat{\sigma}_i^2=\exp(\hat{\rho}_i)$ ；
- 随机采样得到动作
  $a∼N(μ^,σ^i),i=1,⋅⋅⋅,d a\sim\mathcal{N}(\hat{\mu},\hat{\sigma}_i),i=1,···,d$
Training Policy Network
- Auxiliary network，辅助神经网络
- Policy gradient methods
  - option 1: REINFORCE
  - option 2: Actor-Critic

3.2. Training (1/2): Auxiliary Network

Stochastic policy gradient:
$g(a)=\frac{\partial \ln\pi(a|s;\theta)}{\partial\theta}\cdot Q_\pi(s,a)$
Policy network:
$\pi(a|s;\pmb\theta^\mu,\pmb\theta^\rho)=\Pi_{i=1}^d \frac{1}{\sqrt{2\pi}\sigma_i}\cdot\exp(-\frac{(a_i-\mu_i)^2}{2\sigma_i^2})$
Log of policy network:
$\begin{aligned} \ln\pi(a|s;\pmb\theta^\mu,\pmb\theta^\rho) &=\sum_{i=1}^d [-\ln\sigma_i-\frac{(a_i-\mu_i)^2}{2\sigma_i^2}]+const \\&=\sum_{i=1}^d [-\frac{\rho_i}{2}-\frac{(a_i-\mu_i)^2}{2\cdot\exp(\rho_i)}]+const \end{aligned}$
Auxiliary Network:
$f(s,a;\pmb\theta)=\sum_{i=1}^d [-\frac{\rho_i}{2}-\frac{(a_i-\mu_i)^2}{2\cdot\exp(\rho_i)}],\pmb\theta=(\pmb\theta^\mu,\pmb\theta^\rho)$

3.2. Training (2/2): Policy gradient methods

Stochastic policy gradient:
$\begin{aligned} f(s,a;\pmb\theta)&=\ln\pi(a|s;\pmb\theta)+const \\g(a)&=\frac{\partial \ln\pi(a|s;\pmb\theta)}{\partial\theta}\cdot Q_\pi(s,a) \end{aligned}$
得到：
$g(a)=\frac{\partial f(s,a;\pmb\theta)}{\partial\theta}\cdot Q_\pi(s,a)$
接下来对 $Qπ(s,a)Q_\pi(s,a)$ 进行近似。
option 1: REINFORCE

蒙特卡洛近似，使用观测值 $u_t$ 进行近似 $Qπ(s,a)Q_\pi(s,a)$ ，参数更新：
$\pmb\theta\leftarrow\pmb\theta+\beta\cdot\frac{\partial f(s,a;\pmb\theta)}{\partial\pmb\theta}\cdot u_t$
option 2: Actor-Critic

使用价值网络 $q(s,a;w)q(s,a;\pmb w)$ 进行近似 $Qπ(s,a)Q_\pi(s,a)$ ，参数更新：
$\pmb\theta\leftarrow\pmb\theta+\beta\cdot\frac{\partial f(s,a;\pmb\theta)}{\partial\pmb\theta}\cdot q(s,a;\pmb w)$
使用TD learning训练价值网络 $q(s,a;w)q(s,a;\pmb w)$