强化学习DDPG的tensorflow代码

choushi5845

于 2019-08-30 15:36:00 发布

阅读量2.9k

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能 python

原文链接：https://my.oschina.net/u/778683/blog/3099853

DDPG是一种结合了DPG、DQN和Actor-Critic方法的强化学习算法，用于连续动作空间的问题。它使用双网络结构和经验回放，通过Actor网络选择动作，Critic网络评估Q值。关键点包括软更新目标网络、 Ornstein-Uhlenbeck过程添加噪声。在TensorFlow中，DDPG涉及网络构建、损失函数定义、网络更新和经验存储等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep Deterministic Policy Gradient简称DDPG。它是在DPG的基础上，为了提高神经网络的稳定性，而参考DQN的实现方式提出的。DDPG建立两个网络，一个target网络，一个eval网络，同时使用经验回放机制。Deep，其含义主要就是使用经验池和双网络结构来促进神经网络能够有效学习。

双网络结构的网络参数是每隔一定间隔时间从eval网络复制到target网络的。传统的DQN通常采用的是一种被称为'hard'模式的target-net网络参数更新，即每隔一定的步数就将eval-net中的网络参数赋值过去，而在DDPG中，可以采用另一种'soft'模式的target-net网络参数更新，即每一步都对target-net网络中的参数更新一点点，这种参数更新方式经过试验表明可以大大的提高学习的稳定性。

DDPG主要的关键点有以下几个：

DDPG可以看做是Nature DQN、Actor-Critic和DPG三种方法的组合算法。
Critic部分的输入为states和action。
Actor部分不再使用自己的Loss函数和Reward进行更新，而是使用DPG的思想，使用critic部分Q值对action的梯度来对actor进行更新。
使用了Nature DQN的思想，加入了经验池、随机抽样和目标网络，real Q值使用两个target网络共同计算。
target网络更新改为软更新，在每个batch缓慢更新target网络的参数。
将ε-greedy探索的方法使用在连续值采样上，通过Ornstein-Uhlenbe

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。