强化学习：迷宫游戏中的智能体进化之路

你一身傲骨怎能输

已于 2025-06-04 20:45:45 修改

阅读量1.2k

点赞数 17

CC 4.0 BY-SA版权

分类专栏：游戏行业领域知识专栏文章标签：强化学习

于 2024-08-12 17:17:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33060405/article/details/141136977

游戏行业领域知识专栏专栏收录该内容

174 篇文章 ¥129.90 ¥299.90

订阅专栏

超级会员免费看

文章摘要

本文用迷宫游戏类比强化学习的核心概念：状态代表当前位置，动作是移动选择，奖励为环境反馈（如终点+1分），策略是移动规则，价值函数评估位置优劣。智能体通过反复尝试：观察状态→选择动作→获取奖励→更新价值→优化策略，最终学会最快到达终点的最优路径。总结为：状态定位置，动作做选择，奖励获反馈，策略定规则，价值评优劣，通过交互学习逐步优化。

1. 状态（State）

形象理解：
状态就像你在迷宫里的“当前位置”。
比如你现在站在迷宫的第5格，这就是你的当前状态。

例子：

你在迷宫的起点（状态0）。
你在迷宫的中间（状态5）。
你在迷宫的终点（状态15）。

2. 动作（Action）

形象理解：
动作就是你在当前位置能做的选择，比如“往上走”、“往下走”、“往左走”、“往右走”。

例子：

你在状态5，可以选择向上、下、左、右走。
你在状态0（左上角），只能向下或向右走。

3. 奖励（Reward）

形象理解：
奖励就像你每走一步后，环境给你的“反馈分数

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

你一身傲骨怎能输 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。