对抗平滑正则化(Adversarial Smoothing Regularization,ASR),将对噪声数据的预测设置为对干净数据的预测的对手,因此将其命名为对抗平滑正则项。
符号设定:
表示用θ参数化的模型输出。
表示模型 p 对 x 的输出。
这衡量了噪声 对
造成的额外损失。可被看为当前模型在每个输入数据点 x 周围预测平滑度的负度量,其减小意味着噪声造成的损失减小。
数据设定
有标签数据 ,样本数量为
无标签数据 ,样本数量为
协同回归
在协同训练中,对无标签样本的预测置信度可以由分类器输出的后验概率判断。那些置信度最高的预测被设置为无标签样本的伪标签,以扩展另一个分类器的训练集,基于这样相互标记的过程,两个分类器可以利用无标签样本的额外信息进行性能提升。大量研究已经证实,使这两个回归器彼此不同有利于性能改进 [77],因此,Zhou 等人 [78] 使用不同的近邻数量和距离度量来扩大两个K近邻回归器之间的差异。
协同回归使用两个 K 近邻回归器进行无标签样本的相互标记过程,与分类任务相比,回
归场景中的主要挑战是如何选择置信预测作为无标签样本的伪标签。由于回归任务中没
有提供后验概率,协同回归通过分析预测值对有标签数据的影响来评估预测置信度。
三重回归算法流程
伪标签标注步骤前的流程:
- 三个有标签数据集
,无标签数据集
(控制样本数量,影响循环)
- 有数据集
、近邻数
、距离度量
定义的K近邻算法
Repeat for T 轮,指有标签数据集中加入伪标签数据 T 次,每次至多加入两个;加入的同时,将对应数据从无标签数据集中删除,并将无标签数据集的样本数量通过随机采样补全。
方法出自《 面向零_少样本场景的弱监督学习方法、应用与实现_冯良骏 》第三章