参考
1.强化学习传说:第五章 基于模型的强化学习
2.基于模型的强化学习比无模型的强化学习更好?错
3.区分Model-free和Model-based方法
4.基于模型的强化学习方法学习得到的模型有哪些,具体形式是什么?
概述
此前学习的大多数算法其实都是属于Model Free RL的范畴,如Q-learning、Policy Gradient以及A3C、DDPG等等。这些无模型RL算法通过智能体与环境的交换来不断试错,对价值函数或策略函数进行估计,不对环境进行建模也能找到最优的策略。
Model Based RL,即基于模型的RL,则是通过交互得到的数据去拟合一个环境的模型(如状态转移概率P、奖励函数R等