💡💡💡问题点:针对 Transformer 在图像超分辨率(SR)任务中的高计算开销问题,提出了一系列高效解决方案。①我们观察到自注意力在不同层之间存在重复性
💡💡💡我们提出了一种设计策略:仅在每个 Transformer 块的第一层保留自注意力,其余层则替换为我们提出的高效替代模块——卷积注意力(Convolutional Attention,ConvAttn)。为了有效模拟自注意力的长距离建模能力和输入依赖的动态加权机制,ConvAttn 采用了双重机制:
-
长距离交互简化:通过在整个网络中共享一个 13×13 的大卷积核,仅作用于部分通道,从而简化自注意力的全局交互过程;
-
动态卷积核生成:根据输入特征动态生成卷积核,模拟自注意力的自适应加权特性。
本文贡献总结如下:
• 证明经过精心设计的卷积可以部分替代自注意力,在显著提升效率的同时不牺牲 Transformer 的核心优势。
• 首次将 Flash Attention 成功引入轻量级 SR 任务,通过避免显式存储注意力矩阵,将窗口尺寸扩大至 32×32 而几乎不增加显存。
• 以更简单、高效的方式,在轻量级 SR 任务中充分发挥 Transformer 的优势。
💡���