【深度学习】强化学习Q-Learning和DQN的应用(迷宫)

理想不闪火

于 2021-07-12 18:50:42 发布

阅读量1.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习入门到精通系列讲解

本文链接：https://blog.csdn.net/weixin_43838785/article/details/118650291

深度学习入门到精通系列讲解专栏收录该内容

237 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了强化学习中的Q-Learning算法，并通过一个迷宫问题进行深入解释。在迷宫中，Q-Learning用于决策路径，当状态空间过大时，采用神经网络替代Q-table以近似Q函数。此外，文章还探讨了DQN算法在迷宫导航中的应用，以及基础的广度优先搜索算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【深度学习】强化学习Q-Learning和DQN的应用(迷宫)

在这里插入图片描述

文章目录
1 Q-Learning
2 例子
3 用 network 解决
4 DQN机器人走迷宫代码
	4.1 基础搜索算法介绍（广度优先搜索算法）
	4.2 DQN

1 Q-Learning

我们做事情都会有一个自己的行为准则, 比如小时候爸妈常说”不写完作业就不准看电视”. 所以我们在写作业的这种状态下, 好的行为就是继续写作业, 直到写完它, 我们还可以得到奖励, 不好的行为就是没写完就跑去看电视了, 被爸妈发现, 后果很严重. 小时候这种事情做多了, 也就变成我们不可磨灭的记忆. 这和我们要提到的 Q learning 有什么关系呢? 原来 Q learning 也是一个决策过程, 和小时候的这种情况差不多. 我们举例说明.

假设现在我们处于写作业的状态而且我们以前并没有尝试过写作业时看电视, 所以现在我们有两种选择 , 1, 继续写作业, 2, 跑去看电视. 因为以前没有被罚过, 所以我选看电视, 然后现在的状态变成了看电视, 我又选了继续看电视, 接着我还是看电视, 最后爸妈回家, 发现我没写完作业就去看电视了, 狠狠地惩罚了我一次, 我也深刻地记下了这一次经历, 并在我的脑