1.创新点设计
引言
在计算机视觉领域,Transformer架构近年来取得了巨大成功,逐渐取代了传统的CNN模型。
本文将深入解析一个结合了Swin Transformer、动态大核注意力(DLKA)和空间金字塔池化(SSPP)的创新模型架构。这个设计巧妙地融合了Transformer的自注意力机制与CNN的局部特征提取能力,为图像分类任务提供了强大的解决方案。
模型架构概览
该模型的核心是基于Swin Transformer构建,并加入了两个关键模块:
DLKA (Dynamic Large Kernel Attention):动态大核注意力模块,增强局部特征提取能力
SSPP (Spatial Pyramid Pooling):空间金字塔池化模块,提升多尺度特征融合能力
核心组件详解
1. DLKA模块:动态大核注意力
class DLKA(nn.Module):
def __init__(self, in_channels, reduction_ratio=4):
super(DLKA,