马尔科夫奖励过程MRP
状态转移函数:P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1=s′∣st=s)
奖励函数:R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]R(st=s)=E[rt∣st=s]
回报:Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT
回报只是状态转移中的一条路径的价值
状态价值函数:回报的期望Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s],
状态价值函数相较于奖励函数,考虑了折扣后的未来的奖励,是一个更加靠谱的状态价值的估计;奖励函数只是考虑了当下。
状态价值函数是回报的一个期望
Rt+1表示t时刻的奖励R_{t+1}表示t时刻的奖励Rt+1表示t时刻的奖励
马尔科夫决策过程MDP
状态转移概率P(St+1=s′∣st=s,at=a)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s,a_{t}=a\right)P(St+1=s′∣st=s,at=a)
奖励函数R(st=s,at=a)=E[rt∣st=s,at=a]R\left(s_{t}=s,a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s,a_{t}=a\right]R(st=s,at=a)=E[rt∣st=s,at=a]
回报:Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT
状态价值函数:vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ[Gt∣st=s]
动作价值函数,Q函数:qπ(s,a)=Eπ[Gt∣st=s,At=a]q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]qπ(s,a)=Eπ[Gt∣st=s,At=a]