Deep Deterministic Policy Gradient简称DDPG。它是在DPG的基础上,为了提高神经网络的稳定性,而参考DQN的实现方式提出的。DDPG建立两个网络,一个target网络,一个eval网络,同时使用经验回放机制。Deep,其含义主要就是使用经验池和双网络结构来促进神经网络能够有效学习。
双网络结构的网络参数是每隔一定间隔时间从eval网络复制到target网络的。传统的DQN通常采用的是一种被称为'hard'模式的target-net网络参数更新,即每隔一定的步数就将eval-net中的网络参数赋值过去,而在DDPG中,可以采用另一种'soft'模式的target-net网络参数更新,即每一步都对target-net网络中的参数更新一点点,这种参数更新方式经过试验表明可以大大的提高学习的稳定性。
DDPG主要的关键点有以下几个:
- DDPG可以看做是Nature DQN、Actor-Critic和DPG三种方法的组合算法。
- Critic部分的输入为states和action。
- Actor部分不再使用自己的Loss函数和Reward进行更新,而是使用DPG的思想,使用critic部分Q值对action的梯度来对actor进行更新。
- 使用了Nature DQN的思想,加入了经验池、随机抽样和目标网络,real Q值使用两个target网络共同计算。
- target网络更新改为软更新,在每个batch缓慢更新target网络的参数。
- 将ε-greedy探索的方法使用在连续值采样上,通过Ornstein-Uhlenbe