算法学习（十二）——dueling DQN

最新推荐文章于 2025-06-24 15:45:50 发布

星之所望

最新推荐文章于 2025-06-24 15:45:50 发布

阅读量2k

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_42769131/article/details/114293609

强化学习专栏收录该内容

42 篇文章

订阅专栏

相比于原版的DQN，改进在于输出。

在这里插入图片描述

原本的DQN只在输出的时候按照动作数量，进行输出。

dueling DQN从常识出发，将输出分为价值函数和动作函数，价值函数输出一个实数，表示对当前局势的价值量，动作函数输出每个动作的价值。

这个改进并没有理论上的解释，就是单纯凑出来好用。

原版DQN网络的输出：

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = x.view(x.size(0), -1)
        x = self.hidden(x)
        x = self.out(x)
        return x

在输出端的改进，代码对比：

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = x.view(x.size(0), -1)
        adv = self.hidden_adv(x)
        val = self.hidden_val(x)

        adv = self.adv(adv)
        val = self.val(val).expand(x.size(0), self.num_actions)

        x = val + adv - adv.mean(1).unsqueeze(1).expand(x.size(0), self.num_actions)
        return x