作者认为传统的方法只使用了被采样出来的认为是clean的data进行训练,那些没有被sample的数据就没有被利用起来。作者提出了一个基于图的学习框架使得网络能够传播被sample的数据的标签信息到临近的数据(无论是被采样还是没有被采样出来的)。作者提出的self-training的策略利用没有标签也没有被sample的数据,通过使用采样的数据的信息来正则化网络的更新。
Introduction
decoupling method认为被两个网络预测为不同的结果的数据反而更有价值。mentornet使用了teacher-student策略。The Co-teaching method [11] utilizes two networks to distinguish clean samples. Its sampling strategy is to pick an instance with lower loss based on the memorization effect [14]. The Co-teaching+ method [12] is proposed to improve the Co-teaching method. This method shows that the update-by-disagree strategy [9] effectively improves the Co-teaching method [11].
作者为了利用non-sampled data,构建全局的图结构,使得网络能够通过sampled data和网络结构,获取到所有的数据的信息。其次,当获得了non-sampled 的数据的时候,通过self-training来利用这些数据的信息建模。作者认为他们的方法使用了所有结点数据的图结构的similarity,不同于当下的方法,由于噪声的存在,可能导致网络结构朝着错误的方向更新。
作者提出了两个重要的学习策略
graph-structured similarity-based aggregation framework (GSA), 和 graph self-training (GST).
GSA 通过连接的sampled data的边传播标签的信息
GST assigns labels to the whole data using the network’s own distribution. It effectively solves the problem of the sampling method by leveraging the network’s own latent space to explore the whole dataset starting from the sampled data. 不是特别理解这一段。。。
算法流程分两大步:
learn general representation 和 GSA
在第一步,训练两个不同初始化的网络,来学习diverse和general的数据点的表示。在训练的初始阶段,网络更容易学到general feature。
在第二阶段,GSA 包含了一个reference network和一个classifier,其中分类器包括feature extractor,GCN和fully-connected layer。
之前训练的两个网络被选用作reference network,并且在GSA中是固定的,这个网络提供了adjacency matrix,包含了mini-batch 中任意两个图片的general representation的angular similarity 。
整个方法相当于是去学习了一个adjacency matrix A,然后利用GCN去做信息的一个aggregation。
第一步中的两个网络,一个被用做reference network,一个被用作feature extractor。
文章太短,好多没有详细介绍,总结:
作者把一张图片的特征表示为1行(或列),类似于graph中结点的特征,整个mini-batch 包含M个结点,最终形成的邻接矩阵A的形状是M*M,特征矩阵是M*d,d是一个图片的特征的数量。
损失函数方面,self-training 的预测是怎么得出来的,没有给详细的介绍。