主干网络篇 | YOLOv5/v7 更换主干网络之 SwinTransformer | Vision Transformer using Shifted Windows

本文探讨了Swin Transformer作为计算机视觉任务的骨干网络,对比了它与Vision Transformer的差异,强调其在处理图像尺度变化和计算复杂度方面的优势。通过在YOLOv5和YOLOv7项目中的实现细节,展示了如何将Swin Transformer整合进目标检测模型,以提升性能。提供的源代码和实战内容导航为读者提供了进一步研究的资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

本文介绍了一种新的视觉Transformer,称为Swin Transformer,它可以作为计算机视觉通用的骨干网络。从语言到视觉的转换中,适应Transformer所面临的挑战源于两个领域之间的差异,如视觉实体尺度的巨大变化和图像中像素的高分辨率与文本中单词的差异。为了解决这些差异,我们提出了一种分层Transformer,其表示是通过Shifted窗口计算的。Shifted窗口方案通过将自注意计算限制在非重叠的本地窗口内,同时允许跨窗口连接,从而提高了效率。这种分层架构具有在不同尺度下进行建模的灵活性,并且与图像大小的计算复杂度呈线性关系。这些特性使Swin Transformer与广泛的视觉任务兼容,包括图像分类(在ImageNet-1K上的87.3top-1准确率)和密集预测任务,如物体检测(在COCO测试中的58.7 box AP51.1 mask AP)和语义分割(在ADE20K val上的53.5 mIoU)。它的性能在COCO上比先前的最先进水平提高了2.7box AP2.6mask AP,在ADE20K上提高了3.2mIoU,展示了基于Transformer的模型作为视觉骨干的潜力。分层设计和Shifted窗口方法对于所有MLP架构也证明是有益的。

论文地址:https://arxiv.org/pdf/2103.14030.pdf
代码地址:https://github.com/microsoft/Swin-Transformer


评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

迪菲赫尔曼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值