swin transformer框架图
时间: 2025-01-21 11:12:45 浏览: 43
### Swin Transformer 框架架构图
Swin Transformer 是一种基于窗口的分层变压器模型,其核心特点是通过滑动窗口机制来构建局部性和层次化的特征表示[^1]。该模型采用了一种独特的移位窗口策略,在不同阶段使用不同的窗口大小来进行自注意力计算。
#### 架构特点
- **分层结构**:整个网络由多个stage组成,每个stage包含若干个block。
- **窗口划分**:在同一stage内,输入feature map被划分为不重叠的固定大小(如7×7)的小窗口。
- **移位窗口模式**:相邻两个stage之间会交替应用常规窗口和移位后的窗口,从而增强感受野并促进信息交流。
- **线性嵌入与位置编码**:初始时对图像进行patch分割并通过线性映射得到token向量;之后加入绝对或相对位置编码以保留空间关系。
```mermaid
graph TB;
A[Input Image] --> B[Patch Partition];
B --> C[Linear Embedding & Position Encoding];
C --> D(Window-based Multi-head Self Attention);
E(Shifted Window Pattern) -.-> F(Merge Windows);
G(Scale-wise Feature Extraction) --> H(Final Output);
subgraph Stage 1
D --> I(LayerNorm + MLP Block);
I --> J(Patch Merging);
end
subgraph Stage 2
K(Window-based MHSA with Shifted Windows) --> L(LN + MLP);
L --> M(PM);
end
subgraph ...
N(Window-based MHSA w/ SW) --> O(LN + MLP);
O --> P(PM);
end
style A fill:#f96,stroke:#333,stroke-width:4px;
style H fill:#bbf,stroke:#000,stroke-width:4px;
```
此图表展示了Swin Transformer 的基本工作流程以及各组件之间的连接方式。从输入图片经过一系列处理最终输出高层次语义特征的过程清晰可见。
阅读全文
相关推荐


















