强化学习-----DQN（Deep Q-network）

心动雨崽

已于 2024-04-07 17:42:13 修改

阅读量2.1w

点赞数 100

CC 4.0 BY-SA版权

文章标签：神经网络人工智能

于 2024-04-07 17:37:45 首次发布

本文链接：https://blog.csdn.net/qq_74722169/article/details/137471413

强化学习-----DQN（Deep Q-network）

一、什么是DQN

DQN（Deep Q-Network）是一种基于深度学习和强化学习的算法，由DeepMind提出，用于解决离散动作空间下的马尔科夫决策过程（MDP）问题。它是首个成功将深度学习应用于解决强化学习任务的算法之一。DQN，即深度Q网络（Deep Q-network），是指基于深度学习的Q-Learing算法。

那什么是Q-leaning？可以看上一篇文章

Q-learning是一种经典的强化学习算法，用于解决马尔可夫决策过程（Markov Decision Process，MDP）中的控制问题。它是基于值迭代（Value Iteration）的思想，通过估计每个状态动作对的价值函数Q值来指导智能体在每个状态下选择最佳的动作。

其算法的基本思想跟主要优势如下：

Q-Learning是强化学习算法中value-based的算法，Q即为Q（s，a），就是在某一个时刻的state状态下，采取动作a能够获得收益的期望，环境会根据agent的动作反馈相应的reward奖赏，所以算法的主要思想就是将state和action构建成一张Q_table表来存储Q值，然后根据Q值来选取能够获得最大收益的动作。

但是这种算法存在很大的局限性。在现实中很多情况下，强化学习任务所面临的状态空间是连续的，存在无穷多个状态，这种情况就不能再使用表格的方式存储价值函数。

为了解决这个问题，我们可以用一个函数Q(s,a;w)来近似动作-价值Q(s,a)，称为价值函数近似Value Function Approximation，我们用神经网络来生成这个函数Q(s,a;w)，称为Q网络（Deep Q-network），w是神经网络训练的参数。