强化学习五大维度解析-CSDN博客

本文链接：https://blog.csdn.net/R18830287035/article/details/89386694

一、理解环境or感知环境

Model-based：先理解真实世界是怎样的，并建立一个模型来模拟现实世界的反馈，通过想象来预判新下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略。
Model-free：不依赖环境，不尝试去理解环境，Agent会根据现实环境的反馈采取下一步的动作，一步一步等待真实世界的反馈，再根据反馈采取下一步行动。
■例如Q-learning，Sarsa，Policy Gradients。

二、回合更新or单步更新

Monte-carlo update：游戏开始后，要等待游戏结束，然后再总结这一回合中的所有转折点，再更新行为准则。
■例如：policy gradients，MC
Temporal-difference update：在游戏进行中每一步都在更新，不用等待游戏的结束，这样就能边玩边学习了。
例如：Q-learning，Sarsa，升级版的PG.

三、基于价值or基于策略

Policy based：目标是找到最优策略，通过感官分析所处的环境，直接输出下一步要系取的各种动作的概率，然后根据概率采取行动。
例如：Policy Gradients
Value based：目标是找到最优奖励总和，输出的是所有动作的价值，根据最高价值来选动作，这类方法不能选取连续的动作。
■例如：Q-learning，Sarsa
还有一种名为Actor-Critic的算法：它结合了这两类方