DQN伪代码

原创

已于 2022-07-02 10:21:09 修改 · 2.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #深度学习 #Q-learning #强化学习

于 2022-06-15 23:15:49 首次发布

本文介绍了DQN（Deep Q-Network）算法，它是一种结合Q学习和深度学习的强化学习方法，用于解决不稳定性问题。DQN通过经验回放和目标网络来稳定训练过程，其中经验回放提供随机样本，目标网络则用于计算稳定的目标值。文章详细阐述了Q学习、MDP、在线Q迭代和拟合Q迭代的概念，并提供了DQN算法的伪代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Q学习

一种与模型无关的、基于值的强化学习算法，直接迭代优化 $QθQ_{\bm\theta}$ 直至收敛。其中 $θ\bm\theta$ 是 $Q$ 的参数。

MDP

$S\mathcal S$ ：状态集， $s=Rn\boldsymbol s=\mathbb R^n$ ；
$A\mathcal A$ ：动作集， $a=Rd\boldsymbol a=\mathbb R^d$ ；
$T$ ：可供模型决策的最长时间或者最大步数， $t$ 就是时间；设置一个仿真器并提供 $m$ 个初始状态执行随机动作并模拟 $T$ 步，可以得到 $m$ 串马尔可夫链；
$P$ ： $tw∼N(0,Σw)^t\boldsymbol w\sim\mathcal N(0,\Sigma_{\boldsymbol w})$ 是高斯噪声； $s′∼Ps,a^tP_{\boldsymbol s,\boldsymbol a}(\boldsymbol s^\prime)=1\ ,\ P_{\boldsymbol s,\boldsymbol a}(\boldsymbol s^\prime)\geq0\ ,\ \boldsymbol s^\prime\sim P_{\boldsymbol s,\boldsymbol a}$ $tB=Rn×d{^{t+1}\boldsymbol s}={^t\boldsymbol A}{^{t}\boldsymbol s}+{^t\boldsymbol B}{^{t}\boldsymbol a}+{^t\boldsymbol w},\ {^t\boldsymbol A}=\mathbb R^{n\times n},\ {^t\boldsymbol B}=\mathbb R^{n\times d}$
$R$ ： $R=Rd×nR=\mathbb R^{d\times n}$

$s\boldsymbol s$ 状态下的奖励最大（最优）的动作为：
$max⁡aEs′∼Ps,a[V∗(s′)]\boldsymbol a^*=\pi^*(\boldsymbol s)=\argmax_\boldsymbol a\sum_{s^\prime\in \mathcal S}P_{\boldsymbol s,\boldsymbol a}(s^\prime)V(s^\prime)=\argmax_\boldsymbol a\mathbb E_{s^\prime\sim P_{\boldsymbol s,\boldsymbol a}}\big[V^*(s^\prime)\big]$