Q学习
一种与模型无关的、基于值的强化学习算法,直接迭代优化QθQ_{\bm\theta}Qθ直至收敛。其中θ\bm\thetaθ是QQQ的参数。
MDP
- S\mathcal SS:状态集,s=Rn\boldsymbol s=\mathbb R^ns=Rn;
- A\mathcal AA:动作集,a=Rd\boldsymbol a=\mathbb R^da=Rd;
- TTT:可供模型决策的最长时间或者最大步数,ttt就是时间;设置一个仿真器并提供mmm个初始状态执行随机动作并模拟TTT步,可以得到mmm串马尔可夫链;
- PPP:tw∼N(0,Σw)^t\boldsymbol w\sim\mathcal N(0,\Sigma_{\boldsymbol w})tw∼N(0,Σw)是高斯噪声;tPs,a(s′)=1 , Ps,a(s′)≥0 , s′∼Ps,a^tP_{\boldsymbol s,\boldsymbol a}(\boldsymbol s^\prime)=1\ ,\ P_{\boldsymbol s,\boldsymbol a}(\boldsymbol s^\prime)\geq0\ ,\ \boldsymbol s^\prime\sim P_{\boldsymbol s,\boldsymbol a}tPs,a(s′)=1 , Ps,a(s′)≥0 , s′∼Ps,a t+1s=tAts+tBta+tw, tA=Rn×n, tB=Rn×d{^{t+1}\boldsymbol s}={^t\boldsymbol A}{^{t}\boldsymbol s}+{^t\boldsymbol B}{^{t}\boldsymbol a}+{^t\boldsymbol w},\ {^t\boldsymbol A}=\mathbb R^{n\times n},\ {^t\boldsymbol B}=\mathbb R^{n\times d}t+1s=tAts+tBta+tw, tA=Rn×n, tB=Rn×d
- RRR:R=Rd×nR=\mathbb R^{d\times n}R=Rd×n
s\boldsymbol ss状态下的奖励最大(最优)的动作为:
a∗=π∗(s)=arg maxa∑s′∈SPs,a(s′)V(s′)=arg maxaEs′∼Ps,a[V∗(s′)]\boldsymbol a^*=\pi^*(\boldsymbol s)=\argmax_\boldsymbol a\sum_{s^\prime\in \mathcal S}P_{\boldsymbol s,\boldsymbol a}(s^\prime)V(s^\prime)=\argmax_\boldsymbol a\mathbb E_{s^\prime\sim P_{\boldsymbol s,\boldsymbol a}}\big[V^*(s^\prime)\big]a∗=π