摘要
我们介绍了一种基于对抗训练的新型自我监督学习方法。我们的目标是训练一个鉴别器网络,以将真实图像与带有合成伪像的图像区分开,然后从其中间层提取特征,并将其转移到其他数据域和任务中。为了生成带有伪影的图像,我们预训练了一个大容量的自动编码器,然后使用一种损坏和修复策略:首先,冻结自动编码器,并通过随机删除其条目来损坏编码器的输出。其次,我们用维修网络扩充解码器,并以对抗性的方式针对鉴别器进行训练。修复网络通过修补掉掉的功能条目来帮助生成更逼真的图像。为了使区分者专注于伪像,我们还使其能够预测特征中删除了哪些条目。我们通过实验证明,通过创建和发现工件发现的功能可以在多个基准中达到最先进的性能。
1引言
深度学习的最新发展展示了从图像中学习有用功能的强大能力[23],然后可以将其转移到其他多项任务[12、13、35、38]。 这些系统依赖于大型注释数据集,这需要昂贵且费时的人工。 为了解决这些问题,已经提出了自我监督的学习方法[7、28、32、42、44]。 这些方法从没有注释数据的图像中学习特征。 有些人通过以下策略介绍了一个前置任务:一个人保留有关输入数据的一些信息,然后训练网络以恢复它。 例如,某些方法保留图像区域[32],颜色[44]或灰度和颜色值[45]; 其他人则控制了补丁的位置[7,28]或其他外部信息,例如自我运动[19]。 在自我监督学习中,主要挑战是定义一个与学习特征的最终应用最相关的借口任务。
为了实现这一目标,我们建议通过将图像分类为真实的或带有伪影的方法来学习特征(请参见图1)。 我们旨在创建图像伪像,以便能够发现它们的模型需要准确表示对象,从而构建可以很好地转移到诸如对象分类,检测和分割等任务的特征。 创建工件的第一种方法是使用修复算法[2,6]。 这些方法除了在较大的绘画区域上计算效率低外,还不适合用于培训,因为它们可能会引入低级统计信息,而神经网络可以很容易地学会检测这些统计信息。 这可能会限制网络从对象中学到的东西。 因此,如图1所示,我们代替了在像素级别上编辑图像,而是篡改了它们的特征表示并创建了损坏的图像,以使纹理伪像在局部不明显,但在全局上不正确。
为了产生伪像,我们首先训练一个自动编码器以再现图像。然后,我们从编码特征中随机删除条目(在瓶颈处),从而丢失了有关输入图像的某些信息。然后,我们向解码器添加修复神经网络,以帮助其渲染逼真的图像。修复网络在解码器的每一层都修补了特征表示,但是其有限的容量使其无法完全恢复丢失的信息。通过这种方式,我们获得了带有无法通过局部分析检测到的伪影的图像。然后,我们训练鉴别器以区分真实图像和损坏图像。此外,我们还使鉴别器输出为掩码,以指示删除了哪些功能条目。这隐含地帮助鉴别者将注意力集中在图像中的重要细节上。我们还使用真实掩码将修复网络的范围限制为与丢弃的项目相对应的功能。这限制了维修网络以全局一致的方式替换丢失的信息的能力。然后以对抗方式训练维修网络和鉴别器。但是,与其他对抗方案相反,请注意,我们的维修网络在设计上并未完全混淆鉴别器。最后,我们从鉴别器传递特征,因为这是学习图像分布近似值的模型。
我们的贡献可以归纳如下:1)一种基于特征图像检测的新颖特征学习框架,不需要人工注释。 2)创建具有非平凡伪像的图像的方法; 3)我们的功能在多项迁移学习评估(ILSVRC2012 [5],Pascal VOC [11]和STL-10 [4])上达到了最先进的性能。
3 架构概述
我们简要总结了将在下一部分中介绍的体系结构的组件。 令x为数据集中的训练图像,令x^\hat{x}x^为带有伪影的版本。 作为模型,我们使用由以下组件组成的神经网络(另请参见图2):
1.两个自编码网络{
E,D1,D2,D3,D4,D5}\{E,D_1,D_2,D_3,D_4,D_5\}{
E,D1,D2,D3,D4,D5},E是编码器,D是解码器,经过预训练以重现高保真真实图像x,ϕ(x)\phi(x)ϕ(x)是解码器的输出。
2.应用于E的特征输出的空间遮罩Ω,生成的蒙版特征表示为ϕ(x)^=Ω⊙ϕ(x)+(1−Ω)⊙(u∗ϕ(x))\hat{\phi(x)}=\Omega\odot \phi(x)+(1-\Omega)\odot(u*\phi(x))ϕ(x)^=Ω⊙ϕ(x)+(1−Ω)⊙(u∗ϕ(x))
3.鉴别器网络C将x分类为真实图像,将x分类为假图像; 我们还训练鉴别器输出遮罩Ω,以便它学会定位所有伪像;
4.修复网络R1,R2,R3,R4,R5{R_1,R_2,R_3,R_4,R_5}