强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别

本文深入探讨了马尔科夫奖励过程(MRP)和马尔科夫决策过程(MDP)的基本概念。状态转移函数描述了状态间的转移概率,而奖励函数则关注于在特定状态下获取的即时奖励。在MDP中,引入了动作选择,状态价值函数和动作价值函数(Q函数)用于评估不同决策路径的长期回报。这些理论在强化学习和智能决策制定中起到关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

马尔科夫奖励过程MRP

状态转移函数P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1=sst=s)

奖励函数R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]R(st=s)=E[rtst=s]

回报Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4++γTt1RT

回报只是状态转移中的一条路径的价值

状态价值函数:回报的期望Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}Vt(s)=E[Gtst=s]=E[Rt+1+γRt+2+γ2Rt+3++γTt1RTst=s]

状态价值函数相较于奖励函数,考虑了折扣后的未来的奖励,是一个更加靠谱的状态价值的估计;奖励函数只是考虑了当下。
状态价值函数是回报的一个期望
Rt+1表示t时刻的奖励R_{t+1}表示t时刻的奖励Rt+1t

马尔科夫决策过程MDP

状态转移概率P(St+1=s′∣st=s,at=a)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s,a_{t}=a\right)P(St+1=sst=sat=a)

奖励函数R(st=s,at=a)=E[rt∣st=s,at=a]R\left(s_{t}=s,a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s,a_{t}=a\right]R(st=sat=a)=E[rtst=sat=a]

回报Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4++γTt1RT

状态价值函数vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ[Gtst=s]

动作价值函数,Q函数:qπ(s,a)=Eπ[Gt∣st=s,At=a]q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]qπ(s,a)=Eπ[Gtst=s,At=a]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值