Efficient Long-Range Attention Network for Image Super-resolution

GGSDDUuu

已于 2022-04-11 08:42:52 修改

阅读量4.5k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： paper 文章标签：计算机视觉 transformer 人工智能

于 2022-04-09 21:26:32 首次发布

本文链接：https://blog.csdn.net/GGSDDUuu/article/details/124068425

paper 专栏收录该内容

3 篇文章

订阅专栏

本文提出了一种名为ELAN（Efficient Long-Range Attention Network）的新方法，用于解决图像超分辨率（SR）问题。传统CNN方法因固定大小的卷积核限制了像素间关系的灵活性，而Transformer虽然性能优秀，但计算需求高。ELAN通过结合shift-conv和Group-wise Multi-scale Self-Attention（GMSA）模块，实现了高效且长距离的依赖关系建模。shift-conv提供大感受野的局部特征提取，GMSA则在不同尺度上计算自注意力，避免了计算量的平方增长。此外，通过共享注意力机制，ELAN进一步提高了计算效率。实验结果显示，ELAN在保持高性能的同时，显著降低了复杂度，为SR任务提供了更优的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Efficient Long-Range Attention Network for Image Super-resolution

Date: 2022/04/09
File Type: paper

Abstract

transformer性能好，但是计算力较高

SA（swlf-attention）计算的限制导致SR（super-resolution）性能不佳

提出ELAN（efficient long-range attention network）做图像SR

使用shift-conv提取图像局部结构信息，其复杂性等同于1*1卷积
GMSA模块（group-wise multi-scale self-attention）——在非重叠的一组特征图上使用不同大小尺寸的窗口计算SA，用以建立长距离依赖关系
ELAB（efficient long-range attention block）= 2*shift-conv + GMSA，使用共享注意力机制进一步加速计算过程

Without bells and whistles, our ELAN follows a fairly simple design by sequentially
cascading the ELABs.

1 Introduction

CNN缺点

基于CNN的方法卷积核大小一成不变，对建立像素之间的关系不够灵活

为扩大感受野，不断增加深度和复杂度去恢复细节，直接导致计算量增加

传统transformer缺点

SR的输入图片尺寸较大，而ViT计算量和图片大小成平方倍数，不方便使用ViT模型

SwinIR代表的方法中，用1*1 卷积提取的特征感受野很小，进而影响后面SA的计算，且小窗口内计算SA会限制远距离建模的能力

SwinIR有很多冗余和零散的组件，比如相对位置编码，掩码机制，LayerNorm以及一些子分支neat

Restormer提出的通道空间上计算SA，但是在通道空间上计算SA会牺牲一些有用的空间信息，例如纹理和结构信息，这些信息对下游任务很重要

本论文

We therefore aim to build a highly neat and efficient SR model, where the LR to HR image mapping is simply built by stacking local feature extraction operations and SA sequentially.

两个shift-conv来提取局部特征（shift-conv感受野大复杂度低），GMSA 模块将特征图划分为不同窗口尺寸的组计算SA

共享注意力机制去加速计算

Arming with the shift-conv and GMSA with shared attention, an efficient long-range attention network, namely ELAN, is readily obtained for SR.

贡献

We propose an efficient long-range attention block to model image long-range
dependency, which is important for improving the SR performance.
We present a fairly simple yet powerful network, namely ELAN, which
records new state-of-the arts for image SR with significantly less complexity
than existing vision transformer based SR methods.

2 相关工作

3 方法

3.1 ELAN概述

在这里插入图片描述

3.2 ELAB模块

局部特征提取

之前都是多层感知机和两个级联的11卷积提取局部特征，这样感受野只有11

我们使用两个shift-conv 和 ReLU激活函数扩大感受野

shift-conv：输入图划分为5组，沿着不同的空间维度移动前四组，包括上下左右，最后一组不动。然后紧接着1*1卷积，这样可以利用邻近像素的信息。

不用引入额外的参数和计算量，shift-conv能带来很大的感受野同时保持1*1卷积相当的复杂度

GMSA

一个 $\times H \times W$ 的特征图，划分非重叠窗口大小 $M * M$ ，则基于窗口的自注意力计算复杂度为 $2M^2HWC$

窗口大小 $M$ 决定SA计算的距离， $M$ 越大，提取的自相似性信息就越多

但是直接增加 $M$ 会带来计算量平方倍的增长

我们提出解决方案是GMSA ，首先把特征图划分为 $K$ 组，然后在第 $K$ 组特征图上使用 $M_k$ 大小的窗口,然后不同组通过1*1卷积堆叠合并。

通过这个方法，我们设置不同大小的窗口大小来灵活控制计算量，

该方法计算量：（其中通道数为 $CK\frac{C}{K}$ ）

在这里插入图片描述

ASA(Accelerated self-attention)

放弃LN ，因为它将SA计算分割成很多元素操作，对高效推理不友好，而采用BN来稳定训练过程

其次，SwinIR[28]中的SA是在嵌入式高斯空间上计算的，其中采用了三个独立的1×1卷积，分别用θ、j和g表示，将输入特征X映射到三个不同的特征图。我们设定θ=j，在对称的嵌入式高斯空间[30，5]中计算SA，这样可以节省一个1×1的卷积在每一个SA中。这一修改进一步减轻了SA的计算和内存成本，而不影响SR的性能。我们的ASA如图1(e)所示。