算法学习(十二)——dueling DQN

相比于原版的DQN,改进在于输出。

在这里插入图片描述

原本的DQN只在输出的时候按照动作数量,进行输出。

dueling DQN从常识出发,将输出分为价值函数和动作函数,价值函数输出一个实数,表示对当前局势的价值量,动作函数输出每个动作的价值。

这个改进并没有理论上的解释,就是单纯凑出来好用。

原版DQN网络的输出:

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = x.view(x.size(0), -1)
        x = self.hidden(x)
        x = self.out(x)
        return x

在输出端的改进,代码对比:

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = x.view(x.size(0), -1)
        adv = self.hidden_adv(x)
        val = self.hidden_val(x)

        adv = self.adv(adv)
        val = self.val(val).expand(x.size(0), self.num_actions)

        x = val + adv - adv.mean(1).unsqueeze(1).expand(x.size(0), self.num_actions)
        return x

 

### Dueling DQN 算法概述 Dueling DQN 是一种深度强化学习算法,作为经典深度 Q 网络(Deep Q-Network, DQN)的一种扩展和改进版本[^1]。此算法主要用于解决强化学习任务,在这些任务中,代理需学会根据不同状态选择最优行为来最大化累积奖励。 #### 改进之处 相较于传统的 DQNDueling DQN 通过将 Q 值分解成两个独立的部分——即价值函数 V 和优势函数 A 来提升学习效率与性能[^2]。这种设计允许模型更好地理解环境的状态价值以及特定动作的优势程度,从而提高决策质量并加速收敛过程。 #### 核心机制 在网络架构方面,Dueling DQN 的独特之处在于采用了双流结构:一条路径负责计算整个状态的价值 (Value Stream),另一条则专注于评估各个可能采取的动作相对于该状态下平均表现的好坏程度(Advantage Stream)。最终输出由这两部分组合而成: \[ Q(s,a;\theta,\alpha,\beta)=V(s;\theta,\beta)+\left(A(s,a;\theta,\alpha)-\frac{1}{|A|}\sum_{a' \in A} A(s,a';\theta,\alpha)\right) \] 这里 \( s \) 表示当前状态;\( a \) 表示可选的行为之一;而参数集 \( (\theta ,\alpha ,\beta ) \) 则分别对应于共享层、优势流和价值流的权重向量。 #### 应用场景 对于那些具有离散动作空间并且存在清晰定义好的即时反馈信号的任务来说,采用 Dueling DQN 方法往往能够取得不错的效果。例如游戏AI开发领域内的许多挑战都可以借助此类技术得到有效的应对方案。 ```python import torch.nn as nn class DuelingNetwork(nn.Module): def __init__(self, input_size, output_size): super(DuelingNetwork, self).__init__() # Shared layers self.feature_layer = nn.Sequential( nn.Linear(input_size, 128), nn.ReLU() ) # Value stream self.value_stream = nn.Sequential( nn.Linear(128, 128), nn.ReLU(), nn.Linear(128, 1) ) # Advantage stream self.advantage_stream = nn.Sequential( nn.Linear(128, 128), nn.ReLU(), nn.Linear(128, output_size) ) def forward(self, state): features = self.feature_layer(state) value = self.value_stream(features) advantages = self.advantage_stream(features) q_values = value + (advantages - advantages.mean(dim=1, keepdim=True)) return q_values ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值