reinforcement learning Finite Markov Decision Processes

ckqsars

于 2018-01-29 19:09:17 发布

阅读量227

点赞数

CC 4.0 BY-SA版权

分类专栏：算法文章标签：优化强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ckqsars/article/details/78874688

算法专栏收录该内容

20 篇文章

订阅专栏

本文探讨了在强化学习中马尔科夫决策过程的基础概念，包括状态、收益、行为及决策等参数定义，并介绍了如何通过概率分布来评估不同行为对未来收益的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前记录了在state稳定的情况下或者，state对policy没有影响的情况。但是，在大多数情况下，state是对policy有很大影响的，因此本章主要是学习最初级的RL中马尔科夫决策过程

参数定义

状态 S： state –当前环境的情况。
收益R ： reward –所得到的回报。
行为A：action – agent做出的行为。
决策P：policy –做出行为的判断依据。

最优化对比：
多臂赌博机中，最优化为 $q_*(a)$
在MPDs中，最优化为 $q_*(a,s)$

情景描述：
我们需要让机器人在当前场景下的行为使得最终的收益最大化。转换成公式表示

表示当前场景下的行为所带来的收益以及会导致的下一个场景。

p (s', r | s, a) = P r {S t = s', R t = r | S t - 1 = s, A t - 1 = a}

$\begin{align} p(s',r|s,a) =Pr\{S_t=s',R_t=r | S_{t-1}=s ,A_{t-1} = a\} \end{align}$

上式表示的是在S状态下当执行a操作式下一个场景为s’ 以及收益为r的概率。
根据边缘概率公式，我们可以知道

p (s' | s, a) = P r {S t = s' | S t - 1 = s, A t - 1 = a} = \sum r \in R p (s', r | s, a)

$\begin{align} p(s'|s,a) = Pr\{S_t=s'|S_{t-1}=s,A_{t-1}=a\} = \sum\limits_{r\in R}p(s',r|s,a) \end{align}$

未完待续

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。