【AAAI 2025】特征增强新突破!FCM 模块即插即用,精准锁定小目标,检测精度稳步提升!

Bilibili:CV缝合救星

🌈 小伙伴们看过来~

写推文真的不容易,每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发,别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈~✨

你的一点鼓励🌟,对我们来说就是超大的动力!

👀 小声提醒:用电脑打开阅读更舒服哟,排版清晰、体验更棒!谢谢大家~我们会继续努力产出优质内容,陪你一起进步呀✌️❤️

image.png

01 论文信息

论文题目: FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection (AAAI 2025)

中文题目:FBRT-YOLO:用于实时航空图像检测的更快更优方法

即插即用模块:Feature Complementary Mapping Module (FCM) 特征互补映射模块

02论文概要

Highlight

image.png

图 1. 之前的方法在特征提取过程中忽略了主干网络深层中的空间信息嵌入,导致空间语义不一致。我们的方法旨在在特征提取过程中将浅层的空间位置信息传递到网络的深层,从而增强语义信息的表达能力。

03 研究背景

    🌧️ 存在的问题(背景动因)
深层语义与空间信息脱耦:下采样造成精细位置信息在高层特征中丢失,导致目标定位误差。
单向特征传递不足:传统自上而下的特征流缺乏浅层位置信息的反向补充,难以校正语义偏移。
注意力计算成本高:常规自注意力同时建模通道与空间依赖,计算/显存开销大,实时部署受限。
小目标易被背景淹没:缺少细粒度空间提示,小尺寸目标在高分辨率影像中容易被压制或漏检。

    💡 解决思路(FCM 核心贡献)
通道-空间双分支拆分:输入特征按比例分为通道语义分支与空间位置分支,实现语义与位置信息的显式解耦。
互补映射机制:设计通道交互空间交互两条路径,生成权重 ω₁、ω₂,双向注入,缓解空间-语义失配。
轻量卷积代替自注意力:仅采用深度可分离卷积 + 1×1 卷积构建权重映射,极大降低参数量和 FLOPs,适合移动端实时应用。
级联聚合增强表达:两分支经互补加权后融合为特征 X_FCM,同时强化全局语义与局部细节,提高复杂场景下的小目标检测与背景分离能力。

04 模块原理解读

📌 模块解析 | Feature Complementary Mapping Module (FCM) 特征互补映射模块

image.png

图 2. FBRT-YOLO 框架示意图。FCM 模块被嵌入到主干网络的每个阶段,用于将空间位置信息融入到更深层的语义特征中。在主干网络的最后一个(第四个)阶段,引入了 MKP 单元和多尺度卷积,以增强对不同尺度目标的感知能力。值得注意的是,MKP 替代了最后的下采样层,并减少了对应的检测头数量。

    📌 FCM 模块设计聚焦于“语义-空间互补建模”与“轻量级信息交互增强”,其核心由以下三个关键步骤构成:

通道-空间路径显式解耦:FCM 将输入特征按比例划分为通道语义路径(X_C)空间位置路径(X_S),前者负责提取高层语义信息,后者保留浅层位置信息,缓解下采样带来的空间丢失问题。

互补权重映射实现双向增强:通过通道交互模块生成通道权重 ω₁,引导空间路径关注重要通道;同时通过空间交互模块生成空间权重 ω₂,反向调节通道路径聚焦关键位置,从而实现语义-空间之间的信息协同补偿

融合输出实现语义与位置统一表达:两分支经加权相加生成融合特征 X_FCM,保留语义抽象与空间定位双重优势,提升模型对小目标与复杂结构的判别能力。

    🔍 该模块通过双向互补机制实现空间-语义对齐,在保持极低参数量的同时,显著增强模型对细粒度目标的感知能力,尤其适用于遥感图像、小目标检测等场景。

05 创新思路

CV缝合救星原创模块

🧠 模块名称: MSGI_FCM(多尺度组间交互融合模块)

  MSGI_FCM 模块旨在实现高效的语义-空间融合与多尺度建模能力,通过引入多尺度卷积路径、轻量注意力机制与通道-空间双向增强策略,显著提升模型对小目标、边缘细节及结构复杂区域的感知能力。该模块结构轻量、可即插即用,适用于多种下游任务(如检测、分割等)。其核心机制如下:

多尺度路径融合(创新点⭐):输入特征经 1×1、3×3、5×5 三种尺度卷积并行提取,增强感受野适应性,提升模型对大中小目标的建模能力。

通道注意力增强(创新点⭐):借鉴 SE-Net 思路,利用全局平均池化与全连接网络生成通道权重,动态抑制冗余通道,强化关键语义维度的表达能力

空间注意力引导(创新点⭐):采用 7×7 卷积生成空间注意力图,提升模型对目标位置、边缘区域的响应能力,特别适合背景复杂或边界模糊场景。

特征融合与残差连接:通道注意力输出与空间注意力输出进行逐元素加权融合,并通过 1×1 卷积对融合特征进行整合。若输入输出维度一致,保留残差连接,以增强训练稳定性和梯度传播效率。

    🔍 MSGI_FCM 模块融合了多尺度感知与双向注意力增强能力,在保持参数低开销的前提下,有效提升模型的局部-全局感知能力,特别适用于遥感图像、小病灶检测、边缘结构感知等任务。

📌 输入:特征图
x ∈ [B, C, H, W]
  │
  ▼

【Step 1】多尺度特征提取
  ├─ 三路并行卷积 → Conv1(1×1), Conv3(3×3), Conv5(5×5)
  └─ 拼接输出 → X_multi ∈ [B, 3C//2, H, W]

【Step 2】特征维度整合
  └─ 1×1 卷积融合为统一通道维度 → X_fused ∈ [B, C, H, W]

【Step 3】通道注意力计算
  ├─ 全局平均池化 → GAP(X_fused) ∈ [B, C]
  └─ MLP → Sigmoid → Channel Weights ∈ [B, C, 1, 1]

【Step 4】空间注意力计算
  ├─ 7×7 卷积 → Sigmoid → Spatial Weights ∈ [B, 1, H, W]
  └─ 与输入逐元素乘加权

【Step 5】融合输出
  └─ Output = ChannelEnhanced + SpatialEnhanced → 1×1 Conv 归一整合

【Step 6】残差连接(可选)
  └─ 若输入通道 = 输出通道 → Output += x

📤 输出:增强后的特征图 ∈ [B, C, H, W]

06 模块适用任务

    🎯 MSGI_FCM 模块适用任务(多尺度感知 + 通道-空间双向增强):
小目标检测(Small Object Detection):通过 1×1、3×3、5×5 多尺度并行卷积增强感受野,在遥感图像、医学影像中的小结构检测中表现优异。
边缘与纹理感知任务(Edge-aware Tasks):空间注意力模块强化边界响应能力,适用于器官分割、病灶定位、图像去模糊等任务。
遥感图像分析(Remote Sensing Analysis):在复杂背景下建模目标语义与空间位置,有助于高分辨率遥感图像中的建筑、道路、水体提取。
通用目标检测与识别(Generic Object Detection):轻量结构、残差连接和注意力融合提升特征表达能力,可稳定嵌入多种主干网络,适配各类下游视觉任务。
实时场景理解(Real-Time Scene Understanding):在参数与计算量控制良好的前提下,实现对结构复杂图像的快速处理,适合无人机、移动端等实时应用场景。

    🎯 原始 FCM 模块适用任务(语义-空间互补增强 + 极简轻量设计):
语义分割(Semantic Segmentation):补充空间位置信息至深层语义特征中,提升目标边界分割精度,尤其适合光滑结构或模糊边缘的语义解读。
小病灶检测(Lesion Detection):通过空间通道协同建模,有效提升如肺结节、脑出血斑点等小区域异常的感知与定位能力。
轻量级部署模型(Lightweight Deployment):设计上仅引入轻卷积操作与 Sigmoid 权重调节机制,参数极低,适用于边缘端部署。
层次特征融合任务(Multi-scale Feature Fusion):可插入至任意骨干网络阶段,实现不同层语义信息的对齐与增强,适用于 YOLO、UNet 等结构中。
复杂背景场景建模(Cluttered Scene Modeling):通过通道和空间交互压制冗余背景,突出关键目标区域,提升模型在低对比度、背景噪声强任务下的鲁棒性。

07 运行结果与即插即用代码

运行结果

🎯 FCM 模块

image.png

 🎯 MSGI_FCM 模块 

image.png

本文代码获取

立即加星标

每天看好文

image.png

image.png

扫码关注

福高照 祭灶神

扫尘土 贴窗花

### 即插即用模块在2024 Transformer中的应用与实现 #### 背景概述 近年来,Transformer 架构因其强大的建模能力,在计算机视觉领域得到了广泛应用。特别是在即插即用的设计理念下,许多研究工作致力于开发能够轻松集成到现有神经网络框架中的模块化组件。这些模块不仅提升了模型性能,还保持了较高的灵活性和可扩展性。 #### Batch Transformer 的设计理念及其作用 Batch Transformer 是一种创性的架构设计,其核心思想是在批处理维度上引入 Transformer 来建模样本间的关系[^1]。这一机制受到图结构的启发,即使不使用位置嵌入(positional embedding),Transformer 仍可以被视作一个全连接图网络。因此,Batch Transformer 可以有效捕捉样本间的全局关联信息,从而增强特征表示的能力。 在实际应用中,Batch Transformer 或 BatchFormer 模块通常被插入到分类器和特征提取器之间。这样的设计使得它可以在不影响原有网络结构的情况下,提供额外的信息交互渠道,进而提升整体性能。 #### Conv-Former 注意力模块的应用 另一项值得关注的技术是来自 AAAI 2024 的 Conv-Former 注意力模块[^3]。该模块通过卷积操作实现了类似于 Transformer 的效果,同时保留了计算效率的优势。Conv-Former 不仅适用于图像分类任务,还可以无缝融入其他 CV 应用场景,如目标检测、语义分割等。 以下是 Conv-Former 的基本实现代码示例: ```python import torch.nn as nn class ConvFormerAttention(nn.Module): def __init__(self, dim, num_heads=8, kernel_size=3): super(ConvFormerAttention, self).__init__() self.num_heads = num_heads head_dim = dim // num_heads self.scale = head_dim ** -0.5 self.qkv = nn.Conv2d(dim, dim * 3, kernel_size=1) self.proj = nn.Conv2d(dim, dim, kernel_size=1) self.conv = nn.Conv2d( dim, dim, kernel_size=kernel_size, padding=kernel_size//2, groups=num_heads ) def forward(self, x): B, C, H, W = x.shape qkv = self.qkv(x).reshape(B, 3, self.num_heads, C // self.num_heads, H*W).permute(1, 0, 2, 4, 3) q, k, v = qkv.unbind(0) attn = (q @ k.transpose(-2, -1)) * self.scale attn = attn.softmax(dim=-1) x = (attn @ v).transpose(1, 2).reshape(B, C, H, W) x = self.proj(x) # 添加卷积路径 conv_x = self.conv(x) return x + conv_x ``` #### 傅里叶自注意力模块的作用 傅里叶自注意力模块(Fourier Self-Attention Module, FSAM)是一种轻量化且高效的解决方案,用于捕捉长距离依赖关系[^4]。FSAM 利用了频域特性,能够在较低的计算成本下显著改善模型的表现。尤其是在图像去模糊等领域,FSAM 已经证明了其实现高精度结果的有效性。 实验表明,当将 FSAM 集成至基于编码器-解码器架构的网络中时,它可以专注于优化特定子任务的效果,而不会增加过多复杂度。 #### 总结 综上所述,2024 版 Transformer 技术的核心在于如何通过即插即用的方式提高模型表现的同时降低部署难度。无论是 Batch Transformer 还是 Conv-Former 和 FSAM,它们都体现了灵活适配性和高性能的特点。未来的研究方向可能进一步探索这类模块与其他先进算法之间的协同效应。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值