强化学习 之 Model Based Learning 概述

参考

1.强化学习传说:第五章 基于模型的强化学习
2.基于模型的强化学习比无模型的强化学习更好?错
3.区分Model-free和Model-based方法
4.基于模型的强化学习方法学习得到的模型有哪些,具体形式是什么?

概述

此前学习的大多数算法其实都是属于Model Free RL的范畴,如Q-learning、Policy Gradient以及A3C、DDPG等等。这些无模型RL算法通过智能体与环境的交换来不断试错,对价值函数或策略函数进行估计,不对环境进行建模也能找到最优的策略。

Model Based RL,即基于模型的RL,则是通过交互得到的数据去拟合一个环境的模型(如状态转移概率P、奖励函数R等

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值