视觉Transformer金字塔架构演进：从PVT到CoaT的技术脉络与创新解析-CSDN博客

视觉Transformer架构自ViT问世以来，经历了从基础架构到专用设计的快速演进过程，其中金字塔结构的设计成为解决密集预测任务的关键突破点。本文将系统分析PVT、PVT-v2、CPVT和CoaT四种代表性架构的技术演变路径，揭示其背后的设计哲学与创新要点，探讨金字塔视觉Transformer如何从初步探索走向成熟应用。

视觉Transformer的金字塔进化之路

传统卷积神经网络(CNN)通过特征金字塔网络(FPN)自然处理多尺度特征，而最初的Vision Transformer(ViT)采用“柱状”结构，所有层保持相同序列长度，无法直接构建类似金字塔的特征层次结构。这一局限性严重阻碍了ViT在目标检测、语义分割等密集预测任务中的应用效果。Pyramid Vision Transformer(PVT)作为首个将金字塔结构成功引入Transformer的创新工作，开启了视觉Transformer架构演进的新篇章。

PVT系列的技术演进反映了研究者对视觉Transformer核心挑战的逐步攻克：

计算效率瓶颈：高分辨率特征处理时的平方复杂度问题
局部连续性缺失：图像块(patch)划分造成的局部信息断裂
尺度灵活性不足：固定位置编码对多尺度输入的适应性问题
跨尺度交互有限：不同层级特征间缺乏有效通信机制

表：四种金字塔视觉Transformer架构的核心特性对比

架构	发表年份	核心创新	计算复杂度	典型应用场景	相对于前代的改进
PVT	2021	渐进收缩金字塔+SRA	O(N²/R²)	通用密集预测	首次实现Transformer多尺度特征
PVT-v2	2021	重叠块嵌入+线性SRA+卷积FFN	O(N)	高分辨率图像处理	增强局部连续性，线性复杂度
CPVT	2022	条件位置编码+可变形SRA	O(N²/R²)	可变尺寸输入	解决位置编码灵活性问题
CoaT	2023	共尺度机制+卷积注意力	O(N)	多模态跨尺度任务	实现跨层级特征交互

本文将深入分析这四种架构的技术细节与演变逻辑，首先从开创性的PVT开始，逐步揭示各代技术如何解决前代的局限性，最终形成当前强大的金字塔视觉Transformer体系。

PVT：金字塔视觉Transformer的开山之作

设计动机与核心创新

PVT(Pyramid Vision Transformer)的提出直接针对ViT在密集预测任务中的两大缺陷：

单尺度低分辨率输出：ViT的典型patch尺寸(16×16)导致输出步长(stride)过大，如输入224×224图像仅得到14×14特征图，难以精确定位物体边界。
计算复杂度问题：自注意力机制与序列长度平方成正比的计算复杂度，使得处理高分辨率输入时(如800×800图像)显存需求急剧增加(约48GB)。

PVT通过三大创新解决这些问题：

渐进收缩金字塔结构：分阶段(stage-wise)处理逐步降低特征图分辨率
空间缩减注意力(SRA)：显著降低高分辨率特征处理时的计算开销
细粒度块嵌入：采用更小的初始块尺寸(4×4)保留更多空间细节

关键技术实现

渐进收缩策略通过块嵌入层实现特征图尺寸调整。对于第 $i$ 阶段：

$\text{PatEmb}(F_{i-1}) = \text{Reshape}(\text{Linear}(\text{Flatten}(\text{Split}(F_{i-1}, P_i)), C_i)$

其中 $P_i$ 是第 $i$ 阶段的块大小， $C_i$ 是输出通道数。PVT设置四个阶段，块大小分别为4、2、2、2，对应下采样率4×、8×、16×、32×。

空间缩减注意力(SRA)是PVT的核心创新，通过降低K和V的空间维度减少计算量：

$\begin{aligned} \text{SRA}(Q,K,V) &= \text{Concat}(\text{head}_1,...,\text{head}_h)W^O \\ \text{head}_j &= \text{Attention}(QW_j^Q, \text{SR}(K)W_j^K, \text{SR}(V)W_j^V) \end{aligned}$

其中空间缩减操作 $\text{SR}(x)$ 定义为：

$\text{SR}(x) = \text{Norm}(\text{Reshape}(x, R_i)W_S)$

$R_i$ 是缩减比例(如8表示序列长度缩减64倍)。SRA的计算复杂度为 $O(\frac{N^2}{R_i^2})$ ，相比标准MHA的 $O(N^2)$ 显著降低。

优势与局限性

PVT相对于ViT的主要优势包括：

多尺度特征表示：提供{1/4,1/8,1/16,1/32}等下采样率特征图，可直接接入FPN等检测头
计算效率优化：SRA使PVT-Small处理800×800输入时FLOPs仅144G，显存占用15GB
性能提升：作为RetinaNet骨干，PVT-Small比ResNet50高4.1 AP(40.4 vs 36.3)

但PVT仍存在明显局限：

局部连续性缺失：非重叠块划分破坏图像局部结构
位置编码不灵活：固定尺寸位置编码难以适应可变分辨率输入
计算复杂度仍较高：SRA的reshape和线性投影引入额外开销

这些局限性催生了PVT-v2的改进。

PVT-v2：效率与灵活性的突破

针对PVT局限性的三大改进

PVT-v2在PVT基础上进行了三项关键改进：

重叠块嵌入(Overlapping Patch Embedding)：

使用卷积实现块嵌入，扩大patch窗口使相邻窗口重叠50%
通过零填充卷积实现，参数为：步幅S、核大小2S-1、填充S-1
数学表达：

$\text{OverlapEmb}(x) = \text{Conv2d}(x, \text{kernel}=2S-1, \text{stride}=S, \text{pad}=S-1)$

卷积前馈网络(Convolutional Feed-Forward)：

移除固定位置编码，引入3×3深度可分离卷积(DWConv)
增强位置感知能力而不增加显式位置编码

线性空间缩减注意力(Linear SRA)：

用平均池化替代PVT中的卷积缩减，将空间维度固定为P×P(默认7×7)
计算复杂度降为线性：

$\Omega(\text{LSRA}) = 2hwP^2c$

架构细节与性能对比

PVT-v2的线性SRA通过两步实现空间缩减：

平均池化将h×w特征图缩减至P×P
1×1卷积进行通道混合

表：PVT与PVT-v2在ImageNet上的性能对比

模型	参数量(M)	Top-1 Acc(%)	输入尺寸	FLOPs(G)	内存占用(GB)
PVT-Small	24.5	79.8	224×224	3.8	2.1
PVTv2-Small	22.6	81.2(+1.4)	224×224	3.6	1.8
PVT-Medium	44.2	81.9	224×224	6.7	3.4
PVTv2-Medium	42.3	83.1(+1.2)	224×224	6.3	3.0

实验表明PVT-v2在更少参数和计算量下获得更高精度，尤其在密集预测任务中优势更明显。

技术影响与遗留问题

PVT-v2的三大改进使其：

获得更好的局部连续性，提升小物体检测性能
实现线性计算复杂度，适合高分辨率输入
更灵活处理可变尺寸输入，适应实际应用场景

但仍存在两个关键问题：

位置编码的灵活性不足：虽然移除了固定位置编码，但DWConv的位置感知能力有限
跨尺度交互缺乏：各阶段特征学习相对独立，缺乏类似CNN的特征重用机制

这两个问题分别由后续的CPVT和CoaT解决。

CPVT：条件位置编码的革新

位置编码的演进挑战

传统Transformer的位置编码存在两大局限：

固定尺寸：训练时确定的序列长度难以适应推理时不同分辨率输入
内容无关：位置编码与图像内容无关，无法适应不同语义区域的需求

CPVT(Conditional Position encoding Vision Transformer)通过条件位置编码(Conditional Position Encoding, CPE)解决这些问题。

关键技术实现

CPVT的核心创新是可变形位置编码，其关键组件为位置编码生成器(PEG)：

$PEG(F)=DWConv(ZeroPadding(F))$

其中DWConv为深度可分离卷积，零填充保持分辨率。PEG的数学表达为：

$\text{CPE}(F) = F + \text{PEG}(F)$

这种设计具有三大优势：

内容适应性：位置编码由特征图动态生成，反映局部内容
尺寸灵活性：卷积操作自然适应不同输入尺寸
局部相关性：通过卷积核捕获局部位置关系

CPVT还改进了SRA机制，提出可变形SRA(Deformable SRA)，通过可学习偏移量使注意力区域更聚焦于语义相关区域：

$\text{DeformSRA}(Q,K,V) = \text{SRA}(Q, \mathcal{W}(K, \Delta), \mathcal{W}(V, \Delta))$

其中 $\mathcal{W}$ 为可变形采样函数， $\Delta$ 为学习得到的偏移量。

实验效果与应用

CPVT在多项任务中展现出优势：

分类任务：CPVT-Small在ImageNet上达到81.5% Top-1准确率，优于相同规模的PVT-v2
检测任务：作为RetinaNet骨干，CPVT-Small在COCO上达到41.3 AP，比PVT-v2高0.7 AP
分割任务：在ADE20K上，CPVT-Small达到42.1 mIoU，表现优于同类模型

CPVT特别适合处理不规则物体和可变尺寸输入的场景，如医学图像分割等。

CoaT：跨尺度交互的融合架构

共尺度机制设计理念

CoaT(Co-scale Conv-Attentional Transformer)的核心创新是共尺度机制(Co-scale Mechanism)，解决不同尺度特征间的交互问题。其设计原则包括：

尺度完整性：保持各尺度分支的完整特征学习
跨尺度通信：允许不同尺度特征相互引导
效率平衡：在交互深度与计算成本间取得平衡

关键架构组件

CoaT包含两大核心组件：

串行块(Serial Block)：

按固定比例下采样输入特征
将特征展平为token序列并与CLS token连接
通过多头注意力学习内部关系
数学表达：

$\text{Serial}(F_i) = \text{MHA}(\text{Concat}[\text{CLS}, \text{Flatten}(\text{Down}(F_i))])$

并行块(Parallel Block)：

接收来自不同串行块的多尺度特征
通过两种策略实现跨尺度交互：
- 直接跨层注意力：对不同尺度特征进行上下采样匹配后做注意力
- 特征插值注意力：通过双线性插值对齐尺度后融合

卷积注意力机制

CoaT的另一创新是卷积注意力(Conv-Attention)，将卷积与注意力优势结合：

相对位置编码：通过卷积实现位置感知
局部-全局平衡：在因子化注意力中融合局部卷积与全局注意力
计算效率：保持线性复杂度的同时增强表达能力

卷积注意力的计算过程：

$\begin{aligned} \text{ConvAtt}(Q,K,V) &= \text{Softmax}(\frac{QK^T}{\sqrt{d}} + \text{ConvPos}(Q,K))V \\ \text{ConvPos}(Q,K) &= \text{DWConv}(\text{Concat}[Q,K]) \end{aligned}$