浅谈强化学习二之马尔卡夫决策过程与动态规划

最新推荐文章于 2025-05-01 21:49:48 发布

天辰孤煞&

最新推荐文章于 2025-05-01 21:49:48 发布

阅读量894

点赞数

CC 4.0 BY-SA版权

文章标签：强化学习马尔可夫动态规划

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lj19940110/article/details/89422076

书接上文，目前普遍认为强化学习的算法分为基于值函数和基于策略搜索以及其他强化学习算法。

先说强化学习的基础，提及强化学习，就要先认知马尔可夫。确认过眼神，大家都是被公式折磨的人，这里就不讲公式了，只是说一下自己的理解，作为大纲方便大家去理解学习，更具体的需要看书去系统学习。

1）马尔可夫性是指系统的下一个状态 $S_{t+1}$ 仅与当前状态 $S_{t}$ 有关，与之前状态无关。

2）马尔可夫过程：假设S是有限的状态集合，P是状态转移矩阵。马尔可夫过程就是指各状态之间相互转换的概率。

3）马尔可夫决策过程：就是指状态转移过程中的决策，这里不单单有转移概率，而且有回报函数R，和折扣引子 $\gamma$ 。

强化学习的目标是找到一个决策序列使得累计回报最大，也就是广义的序贯决策问题，马尔可夫决策是序贯问题的重要解决途径，可分为基于模型的动态规划方法和无模型的强化学习方法。这两者都包含策略迭代算法，值迭代算法和策略搜索算法。

动态规划问题的核心是找到一个最优值函数，一个连续的系列动作称之为策略 $\pi$ ，值函数就是对策略的评价，所有状态-行为值函数的总和即是最终的评价。

1）策略迭代包括策略评估和策略改善：

策略评估算法的输入是需要评估的策略的一些参数：状态转移矩阵，回报函数，折扣因子。最终输出为值函数，在不断迭代过程中，当前状态的值函数可以通过之前状态的值函数得到，而迭代结束的标志为2次迭代

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。