【YOLO改进】换遍MMDET主干网络之Pyramid Vision Transformerv2（PVTv2）（基于MMYOLO）

最新推荐文章于 2025-06-12 21:11:10 发布

五山一胖

最新推荐文章于 2025-06-12 21:11:10 发布

阅读量1.3k

点赞数 18

CC 4.0 BY-SA版权

分类专栏： YOLO改进文章标签： YOLO

本文链接：https://blog.csdn.net/Vlone_pp/article/details/138506901

Pyramid Vision Transformer v2（PVTv2）

Pyramid Vision Transformer v2（PVTv2）是在PVTv1的基础上进行改进的一种深度学习模型，它同样结合了Transformer架构和金字塔结构，旨在提供更强大的特征表示和更好的性能。

PVTv2的主要改进包括：

降低计算复杂度：通过引入线性复杂度注意层（Linear Complexity Attention Layer），PVTv2将PVTv1的计算复杂度从二次降低到线性，使得模型在处理高分辨率输入时更加高效。
重叠补丁嵌入：PVTv2采用了重叠补丁嵌入（Overlapping Patch Embedding）来替代PVTv1中的非重叠补丁嵌入。这种方法可以更好地保留图像的局部连续性，提高模型的性能。
卷积前馈网络：在PVTv2中，卷积前馈网络（Convolutional Feed-Forward Network）被用来替代PVTv1中的全连接前馈网络。这种方法可以引入卷积的局部性和层次性，进一步提高模型的性能。

通过这些改进，PVTv2在多个基本视觉任务（如分类、检测和分割）上实现了显著的性能提升，并且在参数量和计算量方面也具有更好的优化。

PVTv2作为YOLO主干网络的可行性分析

性能优势：PVTv2作为PVTv1的改进版本，具有更强的特征表达能力和更高的性能。将其作为YOLO的主干网络，可以使得YOLO能

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

五山一胖

关注关注

18
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

芒果YOLOv8改进50：主干Backbone篇之PvT核心网络：：首发改进ICCV顶会，特征金字塔在Vision Transormer的首次应用，又快又好

包括YOLOv5、YOLOv7、YOLOv8等模型改进

03-05

982

YOLOv8改进ICCV顶会PvT Transformer网络

芒果YOLO11改进62：主干Backbone篇之PvT核心网络：：首发改进ICCV顶会，特征金字塔在Vision Transormer的首次应用，又快又好

包括YOLOv5、YOLOv7、YOLOv8等模型改进

11-07

149

PvT核心网络：：首发改进ICCV顶会，特征金字塔在Vision Transormer的首次应用，又快又好

参与评论您还未登录，请先登录后发表或查看评论

Transformer系列：Pyramid Vision Transformer(PVT) v2 （CVMJ 2022）

weixin_34992700的博客

06-23

1223

PVTv2 reduces the computational complexity of PVTv1 to linear and achieves significant improvements on fundamental vision tasks

骨干网络系列-PVT

最新发布

qq_61210574的博客

06-12

809

摘要：本文提出Pyramid Vision Transformer (PVT)，一种专为密集预测任务设计的纯Transformer主干网络。PVT通过三个关键创新克服了ViT在密集预测中的局限性：(1)采用细粒度像素块(4×4)作为输入以实现高分辨率表示；(2)设计渐进式收缩金字塔结构，随网络加深减少序列长度；(3)引入空间缩减注意力层(SRA)降低计算开销。相比CNN，PVT始终保持全局感受野；相比ViT，其金字塔结构更适配密集预测流程。实验表明PVT可构建无卷积的目标检测流程，支持多种像素级任务。该工

PVTV2--Pyramid Vision TransformerV2学习笔记

charles_zhang_的博客

07-04

3178

PVTv2: Improved Baselines with Pyramid Vision TransformerTransformer最近在计算机视觉方面取得了令人鼓舞的进展。在这项工作中，我们通过添加三种设计来改进原始金字塔视觉变换器（PVTv1），提出了新的基线，包括**（1）线性复杂度注意层，（2）重叠面片嵌入和（3）卷积前馈网络**。通过这些修改，PVTv2将PVTv1的计算复杂度降低为线性，并在基本视觉任务（如分类、检测和分割）上实现了显著改进。值得注意的是，拟议的PVTv2实现了与最近的工作（

论文阅读：PVT v2: Improved Baselines with Pyramid Vision Transformer

qq_53086461的博客

11-08

3177

尽管卷积神经网络(cnn)在计算机视觉领域取得了巨大的成功，但本研究研究的是一种更简单、无卷积的骨干网络，可用于许多密集的预测任务。与最近提出的专门为图像分类而设计的视觉转换器(Vision Transformer, ViT)不同，我们引入了金字塔视觉转换器(Pyramid Vision Transformer, PVT)，它克服了将Transformer移植到各种密集预测任务中的困难。与目前的技术相比，PVT有几个优点。

【Computer Vision论文笔记】PVT && PVTv2

zjy_cn的博客

10-07

993

Pyramid Vision Transformer(PVT) 是致力于密集预测的主干网络的研究，是一个由Transformer组成的金字塔结构的网络，能够在多种视觉任务中使用。金字塔结构是CNN中一种非常经典的设计，作者在此将其应用到Transformer中，如下图：图（a）所示的 CNN 结构，feature maps会随着网络深度的增加，大小逐渐缩小。图（b）是ViT的维度变化情况，输入与输出大小保持不变。结合两者，就有了图（c）所示的一Tansformer为基础的金字塔结构。

PVTv2来了！金字塔视觉Transformer重磅升级！三点改进，性能大幅提升

热门推荐

阿木寺的博客

06-29

1万+

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达本文转载自：AIWalkerPVTv2: Improved Baselines with Pyramid Vision ...

【YOLO改进】换遍MMDET主干网络之Pyramid Vision Transformer（PVT）（基于MMYOLO）

Vlone_pp的博客

05-11

900

Pyramid Vision Transformer（PVT）是一种深度学习模型，它结合了Transformer架构和金字塔结构，旨在将Transformer的强大能力引入计算机视觉任务中，特别是那些需要密集预测的任务，如目标检测、语义分割等。PVT的主要特点在于其金字塔结构的设计。与原始的Vision Transformer（ViT）相比，PVT在多个阶段使用了不同尺度的特征图，从而形成了金字塔结构。这种设计使得PVT能够捕获不同尺度的特征信息，提高了模型对图像中不同大小目标的处理能力。

【YOLOv8改进 - 特征融合】FFCA-YOLO: 提升遥感图像中小目标检测的精度和鲁棒性

专注于图像领域，主要研究内容包括计算机视觉和深度学习，特别是在图像分类、目标检测和图像生成等方面有深入的研究和实践经验。

07-22

2238

在遥感中，小物体的检测任务由于特征表示不足和背景混淆等问题而变得艰难。特别是当算法需要部署在板载系统上进行实时处理时，需在有限的计算资源下进行准确性和速度的广泛优化。为了解决这些问题，本文提出了一种高效的检测器，称为特征增强、融合和上下文感知YOLO（FFCA-YOLO）。FFCA-YOLO包含三个创新的轻量级和即插即用的模块：特征增强模块（FEM）、特征融合模块（FFM）和空间上下文感知模块（SCAM）。这三个模块分别增强了网络的局部区域感知、多尺度特征融合和全局关联跨通道与空间的能力，同时尽量避免增加复

【深度学习】（ICCV-2021）PVT-金字塔 Vision Transformer及PVT_V2

zhe470719的博客

05-17

9863

目录详情详情名称：Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 论文：原文代码：官方代码笔记参考： 1.语义分割中的Transformer（第三篇）：PVT — 用于密集预测任务的金字塔 Vision Transformer ...

pvtv_backbone

06-03

PVTv2 pretrained: pretrained model from deformable-DETR. TransCenter V2的预训练模型

PVT v2: Improved Baselines with Pyramid Vision Transformer

qq_52302919的博客

11-11

4643

论文地址：https://arxiv.org/pdf/2106.13797.pdf代码地址： https://github.com/whai362/PVT。

YOLO算法改进Backbone系列之：PVTv2

sc1434404661的博客

03-01

1646

最近，Transformer在计算机视觉方面取得了令人鼓舞的进展。在本研究中，本文通过增加(1)线性复杂度注意层、(2)重叠贴片嵌入和(3)卷积前馈网络三种设计，改进了原始的金字塔视觉转换器(PVT v1)，提出了新的基线。通过这些改进，PVT v2将PVT v1的计算复杂度降为线性，并在分类、检测和分割等基本视觉任务上实现了显著改进。值得注意的是，PVT v2与Swin Transformer等最近的作品相比，取得了相当或更好的性能。本文希望这项工作将促进最先进的变压器在计算机视觉的研究。

PVT v2 原理与代码解析

00000cj的博客

06-07

2797

针对PVT v1存在的问题，PVT v2引入了以下改进线性空间降维注意力：通过使用线性空间降维注意力（linear spatial reduction attention）来降低计算成本重叠的patch embedding：通过重叠的patch embedding来保留图像的局部连续性卷积FFN：通过引入卷积feed-forward network来增强特征表示能力，并去掉了固定大小的位置编码，采用zero padding位置编码，从而提高了处理任意大小输入的灵活性

主干网络篇 | YOLOv5/v7 更换主干网络之 SwinTransformer | Vision Transformer using Shifted Windows

YOLOv8项目贡献者

04-13

6231

YOLOv5/v7 更换主干网络之 SwinTransformer

论文精读:PVT v2: Improved Baselines with Pyramid Vision Transformer

qq_52053775的博客

11-12

2021

论文地址:https://arxiv.org/abs/2106.13797源码地址:https://github.com/whai362/PVT 在这项工作中，作者改进了PVT v1，提出了新的基线，包括(1)线性复杂度注意层，(2)重叠patch嵌入，(3)卷积前馈网络。通过这些修改，PVT v2将PVT v1的计算复杂度降低到线性，并在分类、检测和分割等基本视觉任务上取得了显著的改进。 PVT v1 [33]有三个主要限制： (1)与ViT [8]类似，当处理高分辨率输入（

Transformer主干网络——PVT_V2保姆级解析

qq_37668436的博客

01-14

1万+

前言论文地址：PVT2 代码地址：github 系列文章 Transformer主干网络——PVT_V1保姆级解析 Transformer主干网络——PVT_V2保姆级解析动机出发点：对PVT1进行优化 vit和pvt_v1对图像用4*4大小的patch进行编码，这样忽略了一定的图像局部连续性。 vit和pvt_v1都是用固定大小的位置编码，这样对处理任意大小的图像不友好。计算量还是大网络分析主题结构还是承接上文，大框架如下（已经在上篇博文详细解析了输入到输出的变化，主体结构不再赘述）：

PVT v2：Improved Baselines with Pyramid Vision Transformer

m0_61387177的博客

11-03

890

作者单位：1上海人工智能实验室，2南京大学，3香港大学，4南京理工大学，5IIAI， 6商汤科技Transformer最近在计算机视觉方面取得了令人鼓舞的进展。在这项工作中，作者通过添加三种设计来改进原始Pyramid Vision Transformer（PVT v1），从而提出了新的基线，包括（1）线性复杂度注意力层，（2）重叠补丁嵌入，和（3）卷积前馈网络。通过这些修改，PVT v2将PVT v1的计算复杂度降低到线性，并在分类，检测和分割等基本视觉任务上实现了显着改进。