RL Structure
RL中基本包括三个部分,如下图:
Model-Based RL
在model-based RL里,绿格子里是预判下一个状态St+1。橙色格子依然是产生样本,绿色格子是利用这些样本去产生一个fφ,利用这个函数,可以预测下一个状态。用样本使这个函数越来越拟合。
这样可以得到一个确定的policy,a deterministic policy,在确定的环境中可以工作的较好,但是在随即环境 stochastic environment 中就不是很合适了。
进一步说明:
which part is expensive
橙色部分根据情况而定;
绿色部分,如果是做policy gradient,就很简单,花费很少;但是如果是做上面这种拟合一个fφ出来,就很麻烦,这需要建立一个神经网络(我在想这不就是最近看的那个DQN?)
其实
其实这节课就是在复习之前学习的RL的内容嘛,接下来讲了一些Q() 和V() 的定义和联系,好在这些我还记得比较熟。
再之后,就是在讲不