书接上文,目前普遍认为强化学习的算法分为基于值函数和基于策略搜索以及其他强化学习算法。
先说强化学习的基础,提及强化学习,就要先认知马尔可夫。确认过眼神,大家都是被公式折磨的人,这里就不讲公式了,只是说一下自己的理解,作为大纲方便大家去理解学习,更具体的需要看书去系统学习。
1)马尔可夫性是指系统的下一个状态仅与当前状态
有关,与之前状态无关。
2)马尔可夫过程:假设S是有限的状态集合,P是状态转移矩阵。马尔可夫过程就是指各状态之间相互转换的概率。
3)马尔可夫决策过程:就是指状态转移过程中的决策,这里不单单有转移概率,而且有回报函数R,和折扣引子。
强化学习的目标是找到一个决策序列使得累计回报最大,也就是广义的序贯决策问题,马尔可夫决策是序贯问题的重要解决途径,可分为基于模型的动态规划方法和无模型的强化学习方法。这两者都包含策略迭代算法,值迭代算法和策略搜索算法。
动态规划问题的核心是找到一个最优值函数,一个连续的系列动作称之为策略,值函数就是对策略的评价,所有状态-行为值函数的总和即是最终的评价。
1)策略迭代包括策略评估和策略改善:
策略评估算法的输入是需要评估的策略的一些参数:状态转移矩阵,回报函数,折扣因子。最终输出为值函数,在不断迭代过程中,当前状态的值函数可以通过之前状态的值函数得到,而迭代结束的标志为2次迭代