近年来,Mamba 架构凭借状态空间模型(SSM)实现了长序列数据的线性复杂度处理,但其在视觉任务中存在明显局限:SSM 的因果递归机制限制了全局信息整合,且对短序列场景(如常规图像分类、目标检测)存在计算冗余。研究表明,视觉任务(尤其是非自回归的检测任务)更依赖局部特征提取与并行计算能力,而非 Mamba 的长序列建模优势。因此,MambaOut 通过移除 SSM、仅保留门控 CNN 块,构建了更适配视觉任务的轻量化架构,在 ImageNet 分类中已验证其性能超越含 SSM 的视觉 Mamba 模型。
1.MambaOut 原理
MambaOut 的核心理论基于对视觉任务特性的拆解:
非自回归特性:目标检测需一次性处理整幅图像,无需 Mamba 的因果约束(仅前向信息流动),门控 CNN 的并行计算更贴合任务需求;
短序列主导:常规检测输入(如 640×640 像素)的 token 长度远小于 SSM 的长序列优势阈值,移除 SSM 可避免无效计算;
局部特征优先:检测任务对目标边缘、纹理等局部特征敏感度高,门控 CNN 通过动态特征筛选(如 7×7 深度卷积 + 门控机制)强化关键信息提取,抑制背景噪声。
MambaOut 采用分层架构,与 ResNet 类似但模块更轻量:
基础单元:门控 CNN 块(含深度卷积、门控线性单元 GLU),通过 “卷积特征 × 门控信号” 实现特征自适应筛选;
层级配置:4 阶段堆叠门控 CNN 块,逐步扩大感受野(如 Small 版本为 3-4-27-3 块数配置),通道数从 96 递增至 576;
轻量化特性:参数规模较同尺寸 Mamba 模型减少 40%-60%,MACs 降低 30% 以上,适配边缘计算。
2. YOLO与MambaOut 的结合
MambaOut 替换 YOLObackbone 可借助其高效长序列建模能力,增强对多尺度目标的上下文关联捕捉,在保持计算效率的同时提升复杂场景下小目标检测精度,且结构更适配并行计算,利于模型轻量化部署。
3. MambaOut 代码部分
YOLO双backbone讲,使用Mambaout替换YOLO backbone,可用于单模态和双模态检测,提高精度_哔哩哔哩_bilibili
4. MambaOut 双backbone引入到YOLO中
双backbone系列,直接下载运行,避免添加的麻烦。