强化学习方法分类

一、理解环境or感知环境

Model-based:先理解真实世界是怎样的,并建立一个模型来模拟现实世界的反馈,通过想象来预判新下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。
Model-free:不依赖环境,不尝试去理解环境,Agent会根据现实环境的反馈采取下一步的动作,一步一步等待真实世界的反馈,再根据反馈采取下一步行动
例如Q-learning,Sarsa,Policy Gradients。

二、回合更新or单步更新

Monte-carlo update:游戏开始后,要等待游戏结束,然后再总结这一回合中的所有转折点,再更新行为准则。
例如:policy gradients,MC
Temporal-difference update:在游戏进行中每一步都在更新,不用等待游戏的结束,这样就能边玩边学习了。
例如:Q-learning,Sarsa,升级版的PG.

三、基于价值or基于策略

Policy based:目标是找到最优策略,通过感官分析所处的环境,直接输出下一步要系取的各种动作的概率,然后根据概率采取行动。
例如:Policy Gradients
Value based:目标是找到最优奖励总和,输出的是所有动作的价值,根据最高价值来选动作,这类方法不能选取连续的动作。
例如:Q-learning,Sarsa
还有一种名为Actor-Critic的算法:它结合了这两类方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值