论文阅读 Vision Transformer - VIT

highoooo

已于 2024-01-15 14:49:27 修改

阅读量864

点赞数 8

CC 4.0 BY-SA版权

分类专栏： papers 文章标签：论文阅读 transformer 深度学习

于 2024-01-15 14:25:13 首次发布

本文链接：https://blog.csdn.net/highoooo/article/details/135487767

文章目录

1 摘要
- 1.1 核心
2 模型架构
- 2.1 概览
- 2.2 对应CV的特定修改和相关理解
3 代码
4 总结

1 摘要

1.1 核心

通过将图像切成patch线形层编码成token特征编码的方法，用transformer的encoder来做图像分类

2 模型架构

2.1 概览

在这里插入图片描述

2.2 对应CV的特定修改和相关理解

解决问题：

transformer输入限制: 由于自注意力+backbone，算法复杂度为o(n²)，token长度一般要<512才足够运算
解决：a) 将图片转为token输入 b) 将特征图转为token输入 c)√ 切patch转为token输入
transformer无先验知识：卷积存在平移不变性(同特征同卷积核同结果)和局部相似性(相邻特征相似结果)，
而transformer无卷积核概念，只有整个编解码器，需要从头学
解决：大量数据训练
cv的各种自注意力机制需要复杂工程实现：
解决：直接用整个transformer模块
分类head：
解决：直接沿用transformer cls token
position编码：
解决：1D编码

pipeline：
224x224输入切成16x16patch进行位置编码和线性编码后增加cls token 一起输入的encoder encoder中有L个selfattention模块
输出的cls token为目标类别

3 代码

如果理解了transformer，看完这个结构感觉真的很简单，这篇论文也只是开山之作，没有特别复杂的结构，所以想到代码里看看。

import torch
from torch import nn

from einops import rearrange, repeat
from einops.layers.torch import Rearrange

# helpers

def pair(t):
    return t if isinstance(t, tuple) else (t, t)

# classes

class FeedForward(nn.Module):
    def __init__(self, dim, hidden_dim, dropout = 0.):
        super().__init__()
        self.net = nn.Sequential(
            nn.LayerNorm(dim),
            nn.Linear(dim, hidden_dim),
            nn.GELU(),
            nn.Dropout(dropout),
            nn.Linear(hidden_dim, dim),
            nn.Dropout(dropout)
        )

    def forward(self, x):
        return self.net(x)

class Attention(nn.Module):
    def __init__(self, dim, heads = 8, dim_head = 64, dropout = 0.):
        super(

最低0.47元/天解锁文章