一次看到苏克在知乎写的强化学习问题,自己顺便学习了一下,可能总结有不对的地方,希望朋友们指出。
1. 强化学习与监督学习的区别
强化学习就是通过不断与环境交互,利用环境给出的奖惩来不断的改进策略(即在什么状态下采取什么动作),以求获得最大的累积奖惩。
主要区别:
- 监督学习的训练样本是有标签的,强化学习的训练是没有标签的,是通过不断与环境交互获得奖惩来学习的。
- 监督学习的过程是静态的,强化学习的过程是动态的。动静态是指是否与环境交互。监督学习是给什么样本就学得什么,强化学习是根据与环境交互的奖惩来学习。
- 强化学习更侧重于决策问题。监督学习更侧重执行问题。
2. 强化学习解决序列决策问题
3. 马尔科夫决策过程
马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步(未来)的状态是随机的,并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态,再作新的决策,依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形,在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制,其决策变量就是控制变量。
4. 最优值函数与最优策略为什么等价
π \pi π为原策略, π ′ \pi' π′为改进后策略。
V π ( x ) ≤ Q π ( x , π ′ ( x ) ) = ∑ x ′ ∈ X P π ′ ( x ) [ R x − → x ′ π ′ ( x ) + γ V π ( x ′ ) ] ≤ ∑ x ′ ∈ X P π ′ ( x ) [ R x − → x ′ π ′ ( x ) + γ Q π ( x ′ , π ′ ( x ′ ) ) ] = . . . = V π ′ ( x ) V^\pi(x)\le Q^\pi(x,\pi'(x))=\sum_{x'\in X}P^{\pi'(x)}[R_{x-\to x'}^{\pi'(x)}+\gamma V^\pi(x')]\\ \le \sum_{x'\in X}P^{\pi'(x)}[R_{x-\to x'}^{\pi'(x)}+\gamma Q^\pi(x',\pi'(x'))]=...=V^{\pi'}(x) Vπ(x)≤Qπ(x,π′(x))=x′∈X∑Pπ′(x)[Rx−→x′π′(x)+γVπ(x′)]≤x′∈X∑Pπ′(x)[Rx−→x′π′(x)+γQπ(x′,π′(x′))]=...=Vπ′(x)
由此可得值函数对于策略的每一点改进都是单调的,策略改进与值函数的改进是一致的,因此可将值函数的改进视为策略改进。
5. 求解马尔科夫决策过程都有哪些方法?有模型用什么方法?动态规划是怎么回事?
- 求解马尔科夫决策过程都有哪些方法?有模型用什么方法?
策略迭代,值迭代。 - 动态规划是怎么回事?
求解决策过程最优化的方法,把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系逐个求解,可以认为每个单阶段任务之前的多阶段过程是最优的,在之前最优的基础上选出当前阶段最优的决策。其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。
贝尔曼公式就是一个动态规划的过程。
6. 基于蒙特卡洛的强化学习方法
on-policy与off-policy
7. DP,MC,TD方法的异同
- DP有模型学习,利用后继状态的值函数估计当前状态值函数。——利用模型估计当前值函数,利用模型得到后继状态。
- MC,当没有模型时,后继状态无法完全得到,且没有状态转移概率,只能通过采样求平均的方法得到。相比于DP,MC需要一次多步实验结束才能改进一次策略,效率低。——利用采样求平均估计当前值函数
- TD,将DP与MC相结合,利用 R x → x ′ a + Q ( x ′ , a ′ ) R^a_{x\to x'}+Q(x',a') Rx→x′a+Q(x′,a′)来估计当前值函数。——DP与MC结合估计当前值函数。利用试验得到后继状态。
8. MC和TD分别是无偏估计吗,为什么?MC、TD谁的方差大,为什么?
- MC,MC的返回值为 G t = R t + 1 + γ R t + 2 + . . . + γ T − 1 R T G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-1}R_T Gt=Rt+1+γRt+2+...+γT−1RT或 G t = 1 T − t ∑ i = t + 1 T R t G_t=\frac{1}{T-t}\sum_{i=t+1}^T R_t Gt=T−t1∑i=t+1TRt,是对采样求平均,其就是值函数的定义,因此MC是无偏估计。但是非常依赖每一次的采样值,因此方差会很大。
- TD,TD利用的是 G t = R t + 1 + γ V ( x t + 1 ) G_t = R_{t+1}+\gamma V(x_{t+1}) Gt=Rt+1+