file-type

AutoFormer: 视觉Transformer架构搜索的新突破

PDF文件

15.19MB | 更新于2025-01-16 | 47 浏览量 | 0 下载量 举报 收藏
download 立即下载
AutoFormer: Visual Recognition with Transformer Search 近年来,Transformer模型在视觉任务中,特别是在图像分类和目标检测等领域展现了显著的性能提升,因其能够有效地捕捉长程依赖性。ViT(Vision Transformer)和DeiT是其中的代表性工作,它们证明了Transformer架构在计算机视觉领域的强大潜力。然而,Transformer网络的设计是一个复杂的过程,其深度、嵌入维度以及头数等因素对最终性能有着重要影响,传统上这些参数通常由人工经验或细致调整来设定。 在这个新的研究工作中,研究人员提出了一种创新的架构搜索框架,名为AutoFormer,专为视觉Transformer设计。AutoFormer的核心理念在于超网络训练过程中,它将同一层内不同块的权重关联起来,形成一个动态且高度可适应的结构。这种设计允许训练后的超网络生成大量子网络,这些子网络在继承自超网络的权重下表现良好,甚至接近单独重新训练的效果。这意味着AutoFormer能够自动化地找到最优化的Transformer架构配置,无需人工干预。 在实验部分,AutoFormer所搜索出的模型——AutoFormers,在ImageNet数据集上的表现优异。AutoFormer-tiny、small和base版本分别达到了74.7%、81.7%和82.4%的Top-1精度,参数量分别为5.7M、22.9M和53.7M,显示出显著的效率和性能优势。这证明了AutoFormer在模型大小和精度之间找到了有效的平衡。 为了验证AutoFormer的可迁移性,研究者提供了下游基准测试和模型蒸馏实验的结果。这些实验证明了AutoFormer不仅在原始任务上表现出色,而且在扩展到其他视觉任务时也能保持一致的性能,展示了模型的强大泛化能力。 AutoFormer作为一次性的架构搜索框架,显著改进了视觉Transformer的设计过程,推动了高性能模型的自动化发现,对于提升视觉识别的效率和准确性具有重要意义。该工作的成果不仅在理论层面推动了Transformer架构的发展,也为实际应用提供了实用工具。

相关推荐

cpongm
  • 粉丝: 6
上传资源 快速赚钱