DRL(二)—— RL简介

本文介绍了RL(强化学习)的基本结构,包括Model-Based RL,并讨论了模型预测与样本生成的成本问题。文章提到,在确定环境中,deterministic policy效果良好,但在stochastic environment中可能不足。此外,文章提到了policy gradient方法和DQN,并指出当前内容主要是对先前RL知识的复习,涉及Q()和V()的定义以及不同算法的权衡选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RL Structure

RL中基本包括三个部分,如下图:
在这里插入图片描述

Model-Based RL

在model-based RL里,绿格子里是预判下一个状态St+1。橙色格子依然是产生样本,绿色格子是利用这些样本去产生一个fφ,利用这个函数,可以预测下一个状态。用样本使这个函数越来越拟合。
在这里插入图片描述
这样可以得到一个确定的policy,a deterministic policy,在确定的环境中可以工作的较好,但是在随即环境 stochastic environment 中就不是很合适了。

进一步说明:
在这里插入图片描述

which part is expensive

橙色部分根据情况而定;
绿色部分,如果是做policy gradient,就很简单,花费很少;但是如果是做上面这种拟合一个fφ出来,就很麻烦,这需要建立一个神经网络(我在想这不就是最近看的那个DQN?)

其实

其实这节课就是在复习之前学习的RL的内容嘛,接下来讲了一些Q() 和V() 的定义和联系,好在这些我还记得比较熟。

再之后,就是在讲不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值