注意力机制——Recurrent Attention Model（RAM）

最新推荐文章于 2025-05-23 20:26:59 发布

原创最新推荐文章于 2025-05-23 20:26:59 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #自然语言处理

注意力机制专栏收录该内容

8 篇文章

订阅专栏

RAM是模仿人类视觉注意力机制的深度学习模型，它通过在不同时间步选择图像的感兴趣区域进行处理。模型包含可微分的注意力模块和RNN分类器，其中注意力模块由位置网络和感受野网络组成。在PyTorch中，RAM的实现包括了GaussianAttention和分类网络，使用反向传播进行训练优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Recurrent Attention Model（RAM）是一种基于神经网络的注意力模型，用于处理可变大小和方向的图像。RAM旨在模仿人类视觉系统的注意力机制，即在不同的时间点将视线聚焦于图像的不同部分，以便对其进行更深入的处理。

RAM的基本思想是在每个时间步骤上选择感兴趣的区域，并使用局部特征图来处理该区域。为了实现这一点，RAM引入了一个可学习的“注意力模块”，该模块可以在每个时间步骤中选择感兴趣的区域，并生成与该区域相关的特征图。

具体来说，RAM包括两个主要部分：一个可微分的注意力模块和一个基于RNN的分类器。注意力模块负责选择感兴趣的区域，并生成局部特征图，而RNN分类器则使用这些局部特征图来预测图像的类别。

在RAM中，注意力模块由两个子模块组成：位置网络和感受野网络。位置网络是一个全连接层，负责预测下一个时间步骤中感兴趣的位置。感受野网络是一个卷积神经网络，用于生成局部特征图。它接收整个图像作为输入，然后在注意力模块选择的位置处生成局部特征图。最终，这些局部特征图被级联在一起，并传递给基于RNN的分类器进行分类。

使用 PyTorch 实现 Recurrent Attention Model 的示例代码：

class RAM(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes, n_steps):
        super(RAM, self).__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.num_classes = num_classes
        self.n_steps = n_steps
        
        # Attention Network
        self.attention = GaussianAttention(input_size, hidden_size)
        
        # Classification Network
        self.classifier = nn.Sequential(
            nn.Linear(hidden_size * 16 * 16, 128),
            nn.ReLU(),
            nn.Linear(128, num_classes)
        )
        
    def forward(self, x):
        batch_size = x.size(0)
        x = x.view(batch_size, self.input_size, -1)
        
        # run attention network for n_steps
        x, mu, sigma = self.attention(x, self.n_steps)
        
        # flatten input for classification network
        x = x.view(batch_size, -1)
        
        # classify using classification network
        out = self.classifier(x)
        
        return out, mu, sigma

在上面的代码中，我们定义了一个名为 RAM 的模型类。该模型类包含了 Attention Network 和 Classification Network。在 forward 方法中，我们首先将输入图像重新形状为一个二维张量，并将其传递给 Attention Network。然后，我们将 Attention Network 的输出展平，并将其传递给 Classification Network 进行分类。

我们还返回了 Attention Network 的输出 mu 和 sigma，以便在训练期间使用重构损失函数。重构损失函数的目的是通过生成的注视点将原始图像重建为输入图像，并使用 mu 和 sigma 计算生成的图像和原始图像之间的差异。

在训练过程中，我们可以使用反向传播算法（backpropagation）来更新神经网络的权重。反向传播算法是一种基于梯度下降的优化算法，通过计算损失函数对每个权重的梯度来调整网络权重，从而使损失函数最小化。

在反向传播算法中，我们将训练数据的输入送入神经网络，然后根据网络的输出计算损失函数。接着，我们计算损失函数相对于每个权重的梯度，并使用梯度下降更新权重。这个过程反复进行，直到损失函数收敛到最小值。

反向传播算法是一种非常常见的神经网络训练算法，可以用于训练各种类型的神经网络，包括全连接神经网络、卷积神经网络和循环神经网络。