Bilibili:CV缝合救星
🌈 小伙伴们看过来~
写推文真的不容易,每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发,别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈~✨
你的一点鼓励🌟,对我们来说就是超大的动力!
👀 小声提醒:用电脑打开阅读更舒服哟,排版清晰、体验更棒!谢谢大家~我们会继续努力产出优质内容,陪你一起进步呀✌️❤️
01 论文信息
论文题目:SRConvNet: A Transformer-Style ConvNet for Lightweight Image Super-Resolution (IJCV 2025 顶刊论文) 中文题目:SRConvNet:一种面向轻量级图像超分辨率的Transformer风格卷积网络即插即用模块:Fourier Modulated Attention 傅里叶调制注意力机制(FMA 模块)
02 论文概要
Highlight
图 1.在 BSD100(Arbeláez 等人,2011)数据集上,对比了所提出的SRConvNet 与现有轻量级先进 SISR 方法在 ×4 超分辨率任务中的模型复杂度与性能。FLOPs 的计算方式是将低分辨率图像超分辨到 1280 × 720 分辨率。可以观察到,SRConvNet 在性能与效率之间取得了更好的权衡。
03 研究背景
🌧️ 存在的问题(背景动因)
① 传统多头自注意机制计算量大:MHSA在捕获全局依赖时计算复杂度随输入分辨率平方增长,导致计算成本和显存占用过高,不适合在轻量级模型中部署。
② 轻量卷积网络全局建模能力不足:虽然卷积网络在局部特征提取方面表现优异,但难以有效建模长程依赖关系,限制了高质量重建能力。
③ 全局与局部信息融合不充分:现有方法往往无法在保持全局上下文的同时兼顾局部细节建模,导致重建图像的纹理细节不够清晰、表现力不足。
💡 解决思路(FMA 核心贡献)
① 提出傅里叶调制注意力机制(FMA):结合傅里叶变换与空间域特征交互,在局部区域内实现频率-空间调制,同时捕获长程与短程依赖关系,在保持全局上下文能力的同时减少计算和参数开销。
② 减少计算复杂度:采用线性复杂度的频域操作替代传统MHSA的二次复杂度运算,并结合局部窗口划分,有效降低计算量和显存占用,适配轻量级任务需求。
③ 提升重建精度与细节表现力:在抑制无关特征响应的同时增强纹理和边缘细节,在降低计算成本的同时实现高质量的图像重建。
04 模块原理解读
📌 模块解析 | Fourier Modulated Attention 傅里叶调制注意力机制(FMA 模块)
图 2. 所提出的 FMA模块流程图
📌 FMA 模块聚焦于“全局依赖建模”与“计算复杂度降低”的联合设计,其核心由以下三个关键特点构成:
① 傅里叶域全局特征建模:通过在局部区域内引入傅里叶变换与逆傅里叶变换,实现频率–空间的特征调制,捕获全局上下文信息,同时保留局部细节建模能力,大幅减少传统 MHSA 的计算与显存开销。
② 区域化频率-空间调制提升结构一致性:将特征划分为非重叠局部块,并在每个块中进行线性注意力计算,确保重建图像在结构与风格上具有更高的一致性与平滑过渡。
③ 多头机制增强纹理细节表现:在局部频率-空间调制中引入多头分组处理,专注提取不同尺度与方向的关键信息,强化纹理与边缘细节的还原能力。
🔍 该模块通过“傅里叶域全局感知”与“区域化多头线性注意力”的协同优化,在保证细节表现力的同时显著降低了计算复杂度,特别适用于轻量级超分辨率任务。
05 创新思路
CV缝合救星原创模块
🧠 模块名称:FMAPlus
(Fourier Modulated Attention Plus,傅里叶调制注意力增强模块)
FMAPlus
模块通过引入窗口化傅里叶调制注意力机制,结合频域门控与局部深度卷积增强,旨在同时建模全局依赖与局部细节,并显著降低计算复杂度。它在捕获长程上下文的同时强化细节纹理,特别适用于轻量化高分辨率重建与特征增强任务。其核心设计如下:
① 窗口化傅里叶调制注意力(创新点⭐)
将输入特征划分为局部窗口,在窗口内应用傅里叶变换-逆变换构建的频率–空间调制操作,实现局部全局混合感知。这种方式在保证全局建模能力的同时,显著降低 MHSA 类方法的计算与显存开销,并提升适配性。
② 频域幅度谱门控(创新点⭐)
在频域对幅度谱进行可学习门控,抑制无关频率、突出关键信号,有助于提高纹理保真度与结构一致性,减少噪声干扰。
③ 多头温度缩放注意力(创新点⭐)
为每个注意力头引入可学习的温度参数(Softplus 保证正值),可灵活调整 softmax 的锐度与分布平滑度,从而优化不同头对特征的响应模式。
④ Value 分支局部细节增强(创新点⭐)
在 Value 分支引入 1×1 卷积 + 深度可分离卷积(DWConv)+ 激活,再接 1×1 卷积,以轻量方式增强局部结构感知能力,提升细节纹理表现力。
📌 输入:特征图
x ∈ [B, C, H, W]
📤 输出:增强后的特征图
[B, C, H, W]
(与输入形状一致)
过程步骤:
【Step 1】卷积位置编码(CPE)
通过 3×3 深度可分离卷积引入位置编码,增强空间位置信息感知能力。
【Step 2】窗口划分与傅里叶调制
将输入按设定窗口大小划分为不重叠块;在每个窗口内进行傅里叶变换、幅度谱门控、1×1 瓶颈卷积处理后逆变换,得到全局–局部混合特征。
【Step 3】Value 分支局部增强
对原始输入经 1×1 卷积压缩 → 深度可分离卷积捕获局部上下文 → GELU 激活 → 1×1 卷积恢复维度。
【Step 4】多头注意力计算
将傅里叶分支输出(A)与 Value 分支输出(V)按多头方式拆分,逐元素相乘形成注意力响应;引入 head-wise 温度缩放,再在 token 维度进行 softmax 归一化。
【Step 5】窗口重组与特征融合
将各窗口的注意力结果还原到原图空间,并加上位置编码特征,再通过 1×1 卷积融合通道信息。
【Step 6】可学习层缩放与残差连接
对融合结果按通道乘以可学习缩放因子,再与输入进行残差相加,确保梯度稳定性与训练收敛性。
06 模块适用任务
🎯 FMA 模块适用任务(傅里叶调制注意力机制):
① 高分辨率图像重建与超分辨率:利用傅里叶频域建模全局依赖,同时保留空间细节,适用于 SR、图像复原等任务。
② 遥感影像全局特征增强:通过频域建模长程上下文,提升地物分类、变化检测等任务的判别性。
③ 医学影像多尺度结构建模:在病灶检测、器官分割中兼顾全局结构一致性与局部纹理精度,尤其适合脑 MRI、CT 等需要结构完整性的任务。
④ 视频帧间一致性增强:在视频插帧、去噪等任务中利用全局频域信息提升时间一致性与纹理保真度。
⑤ 轻量级全局–局部混合特征提取:作为主干网络增强模块,用于分类、检测、分割等任务中,提升跨区域特征整合能力。
🎯 FMAPlus 模块适用任务(窗口化傅里叶调制 + 频域门控 + 局部增强):
① 小目标检测与密集场景分析:窗口化策略减少计算量的同时保持局部全局混合感知,适用于小目标检测与拥挤场景分析(如交通流量监测)。
② 高分辨率图像复原与细节增强:频域幅度谱门控抑制无关频率、强化关键纹理,适合 SR、图像去噪、去模糊等任务。
③ 医学影像精细结构分割:在血管、微小病灶分割任务中平衡全局上下文与细节纹理,提升模型稳定性与准确性。
④ 实时视觉与边缘部署:窗口化+轻量化局部增强结构适合部署在边缘设备,满足低延迟与高效能的需求。
⑤ Transformer 与 CNN 混合结构增强:作为视觉 Transformer 的局部–全局混合感知模块,提高跨窗口特征交互与建模能力。
📌 总结:
-
FMA 适用于需要 全局频域建模、长程依赖捕获与结构一致性增强 的任务,如高分辨率复原、视频一致性增强、全局语义理解。
-
FMAPlus 适用于需要 窗口化全局–局部混合、频域关键特征门控与局部细节增强 的任务,如小目标检测、精细分割及边缘端高效视觉计算。
07 运行结果与即插即用代码
运行结果
🎯 FMA
🎯 FMA-Plus
本文代码获取
立即加星标
每天看好文
扫码关注
福高照 祭灶神
扫尘土 贴窗花