Markov Processes

本文介绍了马尔科夫决策过程(MDP),包括马尔科夫性质、马尔科夫过程、Markov Reward Process(MRP)以及MDP的基本概念。MDP是强化学习的基础,它在状态转移中考虑了决策因素。文章通过学生马尔科夫链的例子阐述了MDP的工作原理,并详细解释了策略、价值函数、贝尔曼方程等内容。此外,还讨论了动态规划、蒙特卡洛、Temporal-Difference learning等求解MDP的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

马尔科夫决策过程

参考链接:强化学习系列(三):马尔科夫决策过程

一、前言

1.多臂老虎机只有一个state,没有考虑在不同state下对于action的选择问题
2.associative problem,即不需要考虑状态间的转移,以及action对一系列state的影响
3.本章介绍Markov Decision Processes

二、Markov Processes

2.1 马尔科夫性

1.未来独立与过去,仅仅与现在有关
2.在这里插入图片描述
在这里插入图片描述

2.2 马尔科夫过程

1.具有马尔科夫性的量随机组成的记忆链,这些量之间有转移概率
2.定义👇
在这里插入图片描述

2.3 🌰student Markov Chain

so funny😄
具体见原博。

三、MDP:Markov Decision Prosess

3.1 MRP:Markov Reward Process

1.MRP是关于价值的马尔科夫链
2.定义👇
在这里插入图片描述

3.1.1.1 Return

1.总体的Reward之和:
在这里插入图片描述
2.γ出现的原因
在这里插入图片描述

3.1.1.2 value Function

1.举个🌰,看3.1.1.1中reward之和是如何计算的
详细过程见原博
2.Definition of value Function
MRP的状态值函数v(s)是从状态s开始的预期返回。
在这里插入图片描述
3.将value function 带入到Student MRP中可以得到State-Value Function for Student MRP
图示见原博。
个人觉得圆框中的数值都是期望的近似值。

3.1.1.3 Bellman等式

1.描述的是value function的迭代公式,即v(s)与v(s+1)的关系
在这里插入图片描述
2.Bellman在RL中常用backup图表示,如下
在这里插入图片描述
🌰更直观易懂,见原博。
3.用矩阵形式表示Bellman
在这里插入图片描述
但是不能通过矩阵求解的形式来求解,因为:

  • 这个问题的计算复杂度为O(n3),我们只能对维度较小的MRP直接求解
  • 另外有很多迭代的方式可以求解:Dynamic programming(动态规划)、Monte-Carlo、evaluation(蒙特卡洛)、Temporal-Difference learning(时间查分)

3.2 MDPs:Markov Decision Process

1.与MRPs的关系:比MRPs多了一个采取动作的过程,这个动作就是Decision
2.定义:
在这里插入图片描述
3.student MDP🌰
和student MRP 比较,增加了动作量。图见原博。

3.2.1 Policy

1.定义:策略policy表示在状态s下采取动作a的概率
在这里插入图片描述
2.策略π下的state转移概率和reward符号表示
在这里插入图片描述

3.2.2 value function

1.状态价值函数v(s)
在这里插入图片描述

2.动作价值函数q(s,a)
在这里插入图片描述
在这里插入图片描述

3.2.3 Bellman Expectation Equation贝尔曼期望方程

1.从state到action
在这里插入图片描述

2.从action到state
在这里插入图片描述
3.从state到state
在这里插入图片描述
4.从action到action
在这里插入图片描述

3.2.4 最优价值函数

在这里插入图片描述

3.2.5 最优策略

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2.6 Bellman最优公式

1.state到action
在这里插入图片描述

在这里插入图片描述
2.从action到state
当我们选择了一个动作后,自然产生一个reward,然后我们会有一定几率转移到状态s’,注意,这里没有一个最大化的过程。
在这里插入图片描述
3.state到state
在这里插入图片描述
结合上面两个Backup图可得。
4.从action到action
在这里插入图片描述
5.Bellman最优方程是非线性的,不能根据矩阵直接求解,有以下求解公式

  • Value Iteration
  • Policy Iteration
  • Q-learning
  • Sar sa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值