SdAE：自蒸馏掩蔽自动编码器网络提升视觉Transformer的表现

PDF文件

2.54MB | 更新于2024-06-19 | 170 浏览量 | 举报收藏

立即下载

"SdAE：自蒸馏掩蔽自动编码器网络" 自蒸馏掩蔽自动编码器网络（Self-Distillation Masked Autoencoder Network，简称SdAE）是一种新型的自监督学习方法，它主要应用于计算机视觉领域的预训练模型。SdAE的设计灵感来自于近年来在自监督学习中的两个关键进展：掩蔽图像建模（Masked Image Modeling，如BeiT和MAE）以及知识蒸馏技术。这些方法通常通过随机遮挡输入图像的部分区域，然后要求模型去重建被遮挡的信息，以此学习到有效的图像表示。在传统的掩蔽自动编码器（如MAE）中，模型需要重建被遮挡的像素，但这种方式可能存在预训练和下游任务之间的优化不匹配问题，即好的重建质量不一定能直接转化为模型的高性能。SdAE为了解决这个问题，引入了“学生”和“教师”两个分支。学生分支采用编码器-解码器架构，负责重建丢失的信息，而教师分支则生成被遮挡部分的潜在表示。通过信息瓶颈理论，SdAE分析了如何优化教师分支，以产生高质量的潜在表示。为了进一步提升性能并减少计算复杂度，SdAE提出了多重掩蔽策略。该策略通过平衡多个不同掩蔽视图中的信息，使得模型可以从多种角度学习图像，从而提高学习效率和泛化能力。实验结果表明，即使经过短短300个epochs的预训练，SdAE也能在ImageNet-1k分类任务上达到84.1%的微调准确率，在ADE20K分割任务上达到48.6mIOU，以及在COCO检测任务上达到48.9mAP。关键词涵盖的领域包括自监督学习（Self-Supervised Learning，SSL）、掩蔽图像建模（Masked Image Modeling）、视觉Transformer等。这一工作对于理解和改进预训练模型在计算机视觉任务中的性能具有重要意义，特别是在无需大量标注数据的情况下，SdAE展示了其在学习强大视觉表示方面的潜力。论文作者来自上海交通大学计算机科学与工程系、电子工程系，以及华为云EI团队。有兴趣的读者可以通过提供的链接获取更多论文详情或访问代码库进行进一步研究。

+v：mala2255获取更多论

文

i=1

SdAE：自蒸馏掩蔽自动编码器5

如果每个掩码令牌的值是相互独立的[4，41]，则目标可以重新表述为：

log

（

）

log

（

1）

i=1

考虑MIM本质上是一个重建任务。它与回归任务的关系比与分类

任务的关系更大。因此，我们假设重构值和地面真值的偏差中的噪声

遵循标准高斯分布

为

（0

，

1），并且目标是最小化

拉

吉

−

（

）

−

（

））

i=1

log

（

）

loge

i=1

−

（

）

−

（

））

（二更）

具体来说，对于MAE[24]，

是恒等函数，

是在像素空间空间中重建

掩码块的掩码自动编码器。然而，我们认为：（1）

是一个固定的身

份函数，在预训练期间没有自适应，这破坏了自监督训练的有效性;

（2）通过在低语义级别空间中重建来隐藏图像的每个像素存在一个

优化方向的差距，重建的质量可能并不总是增加模型的描述能力。

相应地，我们引入了一个自蒸馏架构，

即。

其中

是

以

为

输入，

通过梯度设计训练的学习网络，

是

根据学习网络的参数，通过指数移动平

均（EMA）

更新的教师网络

。

该

算法

以

为

输入，

在高层次潜在表征空

间而不是像素空间进行缺失信息重构.

受MAE[24]的启发，我们提出了一个教师输出的值归一化函数。具

体来说，我们计算补丁内特征值的平均值和标准差，并使用它们将教

师输出标准化为

（x

）−

mean

（

（x

））

（

）=

var

（

（三）

（x

））

其中

，

是一个小值，以防止分母为0。我们发现，使用归一化的功能

作为重建目标，提高了表示质量。

然后，我们最小化归一化的教师特征与学生解码器的输出特征的

基础上的特征余弦相似性，和方程。（2）改为：

（

）

（

）

log

（

）

。

米

岛

（

）

2002

年

。

（

）

（

四

）

剩余22页未读，继续阅读

cpongm

粉丝: 6

SdAE：自蒸馏掩蔽自动编码器网络提升视觉Transformer的表现

基于粒子群优化算法优化堆叠去噪自编码器(PSO-SDAE)的数据分类预测（Matlab完整源码和数据)

基于堆叠去噪自编码器(SDAE)的数据分类预测（Matlab完整源码和数据)

如何通过自蒸馏掩蔽自动编码器网络(SdAE)提高视觉Transformer模型在图像分类任务中的性能？

在自监督学习框架下，自蒸馏掩蔽自动编码器网络（SdAE）是如何结合视觉Transformer（ViT）进行图像分类的？具体的技术细节有哪些？

如何结合自蒸馏掩蔽自动编码器网络（SdAE）和视觉Transformer（ViT）模型来提升图像分类任务的性能？请详细说明该方法的关键技术细节。

基于粒子群优化算法的堆叠去噪自编码器(PSO-SDAE)在数据分类预测中的应用的Matlab编程实现,基于粒子群优化堆叠去噪自编码器(PSO-SDAE)的数据分类预测 matlab代码 ,PSO-S

深度学习的matlab工具箱，包括DBN,堆叠去噪自编码器SDAE和NN

基于粒子群优化算法的堆叠去噪自编码器在数据分类预测中的应用与MATLAB代码实现,基于粒子群优化算法的堆叠去噪自编码器在数据分类预测中的应用研究,基于粒子群优化堆叠去噪自编码器(PSO-SDAE)的数

基于粒子群优化堆叠去噪自编码器(PSO-SDAE)的数据分类预测Matlab实现

autoencoder:Connectomics自动编码器

最新资源