值迭代、策略迭代

最新推荐文章于 2025-07-02 12:27:55 发布

原创最新推荐文章于 2025-07-02 12:27:55 发布 · 8.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#强化学习 #机器学习 #人工智能

强化学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了强化学习中值函数的概念及其与策略的关系。详细解释了如何通过值函数评估策略的好坏，并给出了值函数的Bellman方程形式。此外，还讨论了如何找到最优的值函数及对应的最优策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

值函数

策略: 状态s到动作a的映射： $\pi:S\rightarrow A$
值函数：值函数都是对应于特定的策略的，即 $V^\pi$
对于策略 $\pi$ ，状态s的值函数：

$V^\pi(s)=E[R(s_0)+\gamma R(s_1)+\gamma^2 R(s_2)+...|s_0=s,\pi].$

也可表示为Bellman形式，是一种迭代思想：

$V^\pi(s)=R(s)+\gamma\sum \limits_{s'\in S} P_{s\pi (s)} (s')V^\pi (s').$

其中 $P_{s\pi (s)} (s')$ 表示对应于策略 $\pi$ 的状态转移概率，即从s转到s’的概率

最优的值函数

对于某状态s的最优值函数用 $V^*(s)$
定义如下：
$V^*(s)=\max \limits _\pi V^\pi(s).$
由上式可知，最优的策略 $\pi$ 对应最优的值函数、

写成Bellman方程就是：

$V^*(s)=R(s)+\max\limits_{a\in A} \gamma\sum\limits_{s'\in S}P_{sa}(s')V^*(s').$

最优的策略

用 $\pi ^*$ 表示
在某一状态s下的最优策略定义如下：

$\pi ^*(s)=\arg\max\limits_{a\in A}\sum\limits_{s'\in S}P_{sa}(s')V^*(s').$

值迭代

这里写图片描述

策略迭代

这里写图片描述

其中 $V:=V^\pi$ 的计算可根据第一节值函数的定义计算

「已注销」

博客等级

码龄8年

76
原创

419
点赞

1318
收藏

104
粉丝

关注

私信

热门文章

分类专栏

HTML JavaScript CSS 16篇
笔记 1篇
算法 1篇
PPT 2篇
MATLAB 12篇
markdown编辑器 3篇
遗传算法 3篇
office 6篇
神经网络 3篇
支持向量机 2篇
强化学习 2篇
Python 23篇
numpy 5篇
scipy 1篇
matplotlib 3篇
机器学习 16篇
sklearn 2篇
python爬虫 3篇

展开全部收起

上一篇：: 欢迎使用CSDN-markdown编辑器

下一篇：: MATLAB画图函数plot简单用法

最新评论

MATLAB的reshape函数
ubanu: 你确定？？？？
matplotlib设置坐标轴
xuebazhang: fig=plt.figure() fig.gca().spines[['left', 'bottom']].set_position('zero')或('center')
python爬虫：抓取页面上的超链接
m0_73724599: 为什么会爬出非超链接的东西
scipy常数
Chasing Aurora: 放屁，e是自然常数，那是电子好吗？
HTML+JavaScript实现在浏览器里自由画线1.0
m0_71020588: 你好老师，这个代码，我运行后，成功了，前面是忘了保存，刚才重新看了一下，保存后运行，能在html浏览器上，进行鼠标涂鸦了，现在是几个问题，1，这个是白底的颜色，能否把颜色改为透明色，2，这个涂鸦区域是固定的，能否自定义为能在整个屏幕上批注，3，能否把这个web上批注的功能，作成是一个叠加图层，叠加在电脑幕屏（或web浏览器的）任意一个界面上，不管是游戏还是视频还是网页还是wps，都可以叠加在这些界面上，4，还是应该开发几个批注的工具菜单，线条可以换颜色，线条可以调粗细，5，可以定一个白板批注状态，透明批注状态，黑板批注状态，青绿色批注状态（就象学校教室的黑板是青绿色），6，有一个键是能清空批注，有撤销，有像皮擦，……还能一键截图保存当前的屏幕批注画面到指定的文件夹，还可以一键录屏，把批注过程录制成一个视频，保存到指定文件夹，以上，盼老师能继续开发，谢了！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。