vision transformer结构图
时间: 2025-02-05 14:01:18 浏览: 47
### Vision Transformer 架构概述
Vision Transformer (ViT) 将图像处理成一系列的小块(patch),这些小块被线性嵌入(embedding)并加上位置编码(position encoding)[^1]。这种设计允许模型理解输入数据的空间结构。
#### 多级修补机制
具体来说,在Transformer ViT (TNT-ViT)中,提出的多级修补机制能够有效捕捉不同尺度对象的信息。输入图像先被划分成多个较大的补丁(patch),而每个大补丁内部又被细分成更小的子补丁(sub-patch)。通过这种方式,可以更好地表征复杂场景下的目标特征[^2]。
```mermaid
graph TB;
A[Input Image] --> B{Patchify};
B --> C[Patches];
C --> D{Sub-Patchify};
D --> E[Sub-Patches];
F[Position Encoding] --> G(Add);
H[Patch Embeddings] -.-> |Concatenate| I(Patch and Sub-Patch Tokens);
J[Transformer Encoder Layers] --> K(Output Representation);
subgraph "Multi-Level Patching Mechanism"
direction LR
C --> D;
E --> I;
end
```
此架构图展示了从原始图片到最终输出表示的过程,其中包括了重要的组件如位置编码、嵌入层以及变换器编码器层数组。值得注意的是,为了简化说明,这里并未详尽展示所有的技术细节和参数设置。
阅读全文
相关推荐


















