马尔科夫决策过程
参考链接:强化学习系列(三):马尔科夫决策过程
一、前言
1.多臂老虎机只有一个state,没有考虑在不同state下对于action的选择问题
2.associative problem,即不需要考虑状态间的转移,以及action对一系列state的影响
3.本章介绍Markov Decision Processes
二、Markov Processes
2.1 马尔科夫性
1.未来独立与过去,仅仅与现在有关
2.
2.2 马尔科夫过程
1.具有马尔科夫性的量随机组成的记忆链,这些量之间有转移概率
2.定义👇
2.3 🌰student Markov Chain
so funny😄
具体见原博。
三、MDP:Markov Decision Prosess
3.1 MRP:Markov Reward Process
1.MRP是关于价值的马尔科夫链
2.定义👇
3.1.1.1 Return
1.总体的Reward之和:
2.γ出现的原因
3.1.1.2 value Function
1.举个🌰,看3.1.1.1中reward之和是如何计算的
详细过程见原博
2.Definition of value Function
MRP的状态值函数v(s)是从状态s开始的预期返回。
3.将value function 带入到Student MRP中可以得到State-Value Function for Student MRP
图示见原博。
个人觉得圆框中的数值都是期望的近似值。
3.1.1.3 Bellman等式
1.描述的是value function的迭代公式,即v(s)与v(s+1)的关系
2.Bellman在RL中常用backup图表示,如下
🌰更直观易懂,见原博。
3.用矩阵形式表示Bellman
但是不能通过矩阵求解的形式来求解,因为:
- 这个问题的计算复杂度为O(n3),我们只能对维度较小的MRP直接求解
- 另外有很多迭代的方式可以求解:Dynamic programming(动态规划)、Monte-Carlo、evaluation(蒙特卡洛)、Temporal-Difference learning(时间查分)
3.2 MDPs:Markov Decision Process
1.与MRPs的关系:比MRPs多了一个采取动作的过程,这个动作就是Decision
2.定义:
3.student MDP🌰
和student MRP 比较,增加了动作量。图见原博。
3.2.1 Policy
1.定义:策略policy表示在状态s下采取动作a的概率
2.策略π下的state转移概率和reward符号表示
3.2.2 value function
1.状态价值函数v(s)
2.动作价值函数q(s,a)
3.2.3 Bellman Expectation Equation贝尔曼期望方程
1.从state到action
2.从action到state
3.从state到state
4.从action到action
3.2.4 最优价值函数
3.2.5 最优策略
3.2.6 Bellman最优公式
1.state到action
2.从action到state
当我们选择了一个动作后,自然产生一个reward,然后我们会有一定几率转移到状态s’,注意,这里没有一个最大化的过程。
3.state到state
结合上面两个Backup图可得。
4.从action到action
5.Bellman最优方程是非线性的,不能根据矩阵直接求解,有以下求解公式
- Value Iteration
- Policy Iteration
- Q-learning
- Sar sa