一、理解环境or感知环境
Model-based:先理解真实世界是怎样的,并建立一个模型来模拟现实世界的反馈,通过想象来预判新下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。
Model-free:不依赖环境,不尝试去理解环境,Agent会根据现实环境的反馈采取下一步的动作,一步一步等待真实世界的反馈,再根据反馈采取下一步行动。
■例如Q-learning,Sarsa,Policy Gradients。
二、回合更新or单步更新
Monte-carlo update:游戏开始后,要等待游戏结束,然后再总结这一回合中的所有转折点,再更新行为准则。
■例如:policy gradients,MC
Temporal-difference update:在游戏进行中每一步都在更新,不用等待游戏的结束,这样就能边玩边学习了。
例如:Q-learning,Sarsa,升级版的PG.
三、基于价值or基于策略
Policy based:目标是找到最优策略,通过感官分析所处的环境,直接输出下一步要系取的各种动作的概率,然后根据概率采取行动。
例如:Policy Gradients
Value based:目标是找到最优奖励总和,输出的是所有动作的价值,根据最高价值来选动作,这类方法不能选取连续的动作。
■例如:Q-learning,Sarsa
还有一种名为Actor-Critic的算法:它结合了这两类方