videoswin transformer
时间: 2023-10-28 08:58:43 浏览: 214
视频Swing Transformer是一种用于视频识别的基于时空局部归纳偏执纯transformer架构。它是从用于图像识别的Swin Transformer模型改编而来。视频Swin Transformer模型利用了强大的图像模型的预训练,在广泛使用的基础数据集Kinetics-400、Kinetics-600和something-something v2上取得了良好的效果。
视频Swin Transformer的整体架构如下:输入是大小为T HW3的视频,将每个大小为2443的3D patch视为一个token。经过3D patch分割层后,得到具有96维特征的token,大小为T/2H/4W/4。然后,通过一个线性的embedding层,将每个token的特征投影到任意维度C。视频Swin Transformer严格遵循Swin Transformer的架构,包含4个阶段,在每个阶段的patch合并层进行2次空间下采样。patch合并层将每组2×2的空间邻近的patch连接起来,并通过线性层将连接起来的特征投影到它们维度的一半。视频Swin Transformer block将标准Transformer层的多头自注意力模块(MSA)替换为基于3D移动窗口的多头自注意力模块。一个视频Swin Transformer block由基于3D变化窗口的MSA模块和前馈网络(FFN)组成,在每个MSA模块和FFN模块之前使用LN,并对每个模块应用残差连接。
阅读全文
相关推荐







