之前记录了在state稳定的情况下或者,state对policy没有影响的情况。但是,在大多数情况下,state是对policy有很大影响的,因此本章主要是学习最初级的RL中马尔科夫决策过程
参数定义
状态 S: state –当前环境的情况。
收益R : reward –所得到的回报。
行为A:action – agent做出的行为。
决策P:policy –做出行为的判断依据。
最优化对比:
多臂赌博机中,最优化为
q∗(a)
在MPDs中,最优化为
q∗(a,s)
情景描述:
我们需要让机器人在当前场景下的行为使得最终的收益最大化。转换成公式表示
表示当前场景下的行为所带来的收益以及会导致的下一个场景。
p(s′,r|s,a)=Pr{St=s′,Rt=r|St−1=s,At−1=a}
上式表示的是在S状态下 当执行a操作式 下一个场景为s’ 以及收益为r的概率。
根据边缘概率公式,我们可以知道
p(s′|s,a)=Pr{St=s′|St−1=s,At−1=a}=∑r∈Rp(s′,r|s,a)
未完待续