以下是2021年至2025年6月期间,Transformer在计算机视觉领域的最新算法和技术进展的总结:
1. 图像分类
- Vision Transformer (ViT):ViT将图像分割成多个小块(patch),并将这些patch作为序列输入到Transformer模型中,取得了优异的分类性能。
- 改进的ViT变体:包括可扩展的位置编码、低复杂度和低计算代价的优化版本,以及融合局部信息与全局信息的模型。
2. 目标检测
- DETR(Detection Transformer):首次将Transformer引入目标检测任务,能够通过单次前向传播输出所有物体的边界框和类别。
- Transformer融合YOLOV5:结合Transformer结构和YOLOV5模型,更好地捕获全局信息和丰富的上下文信息。
3. 图像分割
- SETR(Segmentation Transformer):使用Transformer处理图像中的像素,能够在单次前向传播中输出所有像素的类别。
4. 图像超分辨率
- HAT(Hierarchical Attention Transformer):采用轴向变形注意力机制,能够更好地建模长距离依赖并恢复局部细节。
- Swin2SR:使用动态掩码注意力机制,实现轻量化和高效计算。
- CrossFormer-SR:引入跨模态注意力机制,利用多源信息辅助超分辨率。
5. 3D建模与多视图几何
- VGGT(Vision Geometry Group Transformer):通过大型Transformer架构处理多视图图像序列,预测相机参数、深度图、点图和点轨迹。
6. 图像复原
- Taylor Expanded Multi-head Self-Attention (T-MSA++):通过泰勒展开优化传统的Softmax-attention机制,结合卷积位置编码(CPE),在保持线性计算复杂度的同时保留非线性特性。
7. 多模态融合
- MP-GT(Meta-Path Guided Transformer):结合图卷积网络(GCN)和Transformer,通过元路径引导优化,提高多模态数据的预测性能。
- ResCLIP:通过激活CLIP模型的潜在密集预测能力,无需微调即可释放视觉语言大模型的密集推理潜能。
8. 视频处理
- Video-SwinIR:结合时空注意力和动态对齐机制,优化视频超分辨率的时序一致性。
9. 图像生成
- DALL-E:使用GPT-3风格的Transformer模型,根据文本描述生成图像。
- NeRF-SR:结合神经辐射场(NeRF)和超分辨率技术,优化3D场景视角一致性。
这些算法和技术展示了Transformer在计算机视觉领域的广泛应用和持续创新,从图像分类到3D建模,从超分辨率到多模态融合,Transformer正在不断推动计算机视觉的发展。