值迭代、策略迭代

本文介绍了强化学习中值函数的概念及其与策略的关系。详细解释了如何通过值函数评估策略的好坏,并给出了值函数的Bellman方程形式。此外,还讨论了如何找到最优的值函数及对应的最优策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

值函数

策略: 状态s到动作a的映射:π:SA
值函数:值函数都是对应于特定的策略的,即Vπ
对于策略π,状态s的值函数:

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π].

也可表示为Bellman形式,是一种迭代思想:

Vπ(s)=R(s)+γsSPsπ(s)(s)Vπ(s).

其中Psπ(s)(s) 表示对应于策略 π 的状态转移概率,即从s转到s’的概率

最优的值函数

对于某状态s的最优值函数用V(s)
定义如下:
V(s)=maxπVπ(s).
由上式可知,最优的策略π对应最优的值函数、

写成Bellman方程就是:

V(s)=R(s)+maxaAγsSPsa(s)V(s).

最优的策略

π表示
在某一状态s下的最优策略定义如下:

π(s)=argmaxaAsSPsa(s)V(s).

值迭代

这里写图片描述

策略迭代

这里写图片描述

其中V:=Vπ的计算可根据第一节值函数的定义计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值