浅谈强化学习二之马尔卡夫决策过程与动态规划

书接上文,目前普遍认为强化学习的算法分为基于值函数和基于策略搜索以及其他强化学习算法。

先说强化学习的基础,提及强化学习,就要先认知马尔可夫。确认过眼神,大家都是被公式折磨的人,这里就不讲公式了,只是说一下自己的理解,作为大纲方便大家去理解学习,更具体的需要看书去系统学习。

1)马尔可夫性是指系统的下一个状态S_{t+1}仅与当前状态S_{t}有关,与之前状态无关。

2)马尔可夫过程:假设S是有限的状态集合,P是状态转移矩阵。马尔可夫过程就是指各状态之间相互转换的概率。

3)马尔可夫决策过程:就是指状态转移过程中的决策,这里不单单有转移概率,而且有回报函数R,和折扣引子\gamma

强化学习的目标是找到一个决策序列使得累计回报最大,也就是广义的序贯决策问题,马尔可夫决策是序贯问题的重要解决途径,可分为基于模型的动态规划方法和无模型的强化学习方法。这两者都包含策略迭代算法,值迭代算法和策略搜索算法。

动态规划问题的核心是找到一个最优值函数,一个连续的系列动作称之为策略\pi,值函数就是对策略的评价,所有状态-行为值函数的总和即是最终的评价。

1)策略迭代包括策略评估和策略改善:

策略评估算法的输入是需要评估的策略的一些参数:状态转移矩阵,回报函数,折扣因子。最终输出为值函数,在不断迭代过程中,当前状态的值函数可以通过之前状态的值函数得到,而迭代结束的标志为2次迭代

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值