file-type

SdAE:自蒸馏掩蔽自动编码器网络提升视觉Transformer的表现

PDF文件

2.54MB | 更新于2024-06-19 | 170 浏览量 | 0 下载量 举报 收藏
download 立即下载
"SdAE:自蒸馏掩蔽自动编码器网络" 自蒸馏掩蔽自动编码器网络(Self-Distillation Masked Autoencoder Network,简称SdAE)是一种新型的自监督学习方法,它主要应用于计算机视觉领域的预训练模型。SdAE的设计灵感来自于近年来在自监督学习中的两个关键进展:掩蔽图像建模(Masked Image Modeling,如BeiT和MAE)以及知识蒸馏技术。这些方法通常通过随机遮挡输入图像的部分区域,然后要求模型去重建被遮挡的信息,以此学习到有效的图像表示。 在传统的掩蔽自动编码器(如MAE)中,模型需要重建被遮挡的像素,但这种方式可能存在预训练和下游任务之间的优化不匹配问题,即好的重建质量不一定能直接转化为模型的高性能。SdAE为了解决这个问题,引入了“学生”和“教师”两个分支。学生分支采用编码器-解码器架构,负责重建丢失的信息,而教师分支则生成被遮挡部分的潜在表示。通过信息瓶颈理论,SdAE分析了如何优化教师分支,以产生高质量的潜在表示。 为了进一步提升性能并减少计算复杂度,SdAE提出了多重掩蔽策略。该策略通过平衡多个不同掩蔽视图中的信息,使得模型可以从多种角度学习图像,从而提高学习效率和泛化能力。实验结果表明,即使经过短短300个epochs的预训练,SdAE也能在ImageNet-1k分类任务上达到84.1%的微调准确率,在ADE20K分割任务上达到48.6mIOU,以及在COCO检测任务上达到48.9mAP。 关键词涵盖的领域包括自监督学习(Self-Supervised Learning,SSL)、掩蔽图像建模(Masked Image Modeling)、视觉Transformer等。这一工作对于理解和改进预训练模型在计算机视觉任务中的性能具有重要意义,特别是在无需大量标注数据的情况下,SdAE展示了其在学习强大视觉表示方面的潜力。 论文作者来自上海交通大学计算机科学与工程系、电子工程系,以及华为云EI团队。有兴趣的读者可以通过提供的链接获取更多论文详情或访问代码库进行进一步研究。

相关推荐