首页vision transformer结构图

vision transformer结构图

时间: 2025-02-05 14:01:18 浏览: 47

### Vision Transformer 架构概述 Vision Transformer (ViT) 将图像处理成一系列的小块(patch)，这些小块被线性嵌入(embedding)并加上位置编码(position encoding)[^1]。这种设计允许模型理解输入数据的空间结构。 #### 多级修补机制具体来说，在Transformer ViT (TNT-ViT)中，提出的多级修补机制能够有效捕捉不同尺度对象的信息。输入图像先被划分成多个较大的补丁(patch)，而每个大补丁内部又被细分成更小的子补丁(sub-patch)。通过这种方式，可以更好地表征复杂场景下的目标特征[^2]。 ```mermaid graph TB; A[Input Image] --> B{Patchify}; B --> C[Patches]; C --> D{Sub-Patchify}; D --> E[Sub-Patches]; F[Position Encoding] --> G(Add); H[Patch Embeddings] -.-> |Concatenate| I(Patch and Sub-Patch Tokens); J[Transformer Encoder Layers] --> K(Output Representation); subgraph "Multi-Level Patching Mechanism" direction LR C --> D; E --> I; end ``` 此架构图展示了从原始图片到最终输出表示的过程，其中包括了重要的组件如位置编码、嵌入层以及变换器编码器层数组。值得注意的是，为了简化说明，这里并未详尽展示所有的技术细节和参数设置。

阅读全文