利用特征可分性增强对抗训练_特征对抗性风格增强-CSDN博客

本文链接：https://blog.csdn.net/qq_38406029/article/details/124999021

1 引言

深度神经网络非常容易受到对抗样本的攻击，对抗训练常常被作为一种防御对抗攻击的策略，其旨在求解 $\min\text{-}\max$ 优化博弈问题。在该论文中，作者发现与自然训练相比，对抗训练无法为干净样本或对抗样本学习更好的特征表示，这可能是对抗训练往往存在严重的过拟合问题和泛化性能不足的原因之一。作者观察到现有对抗训练方法所学习的特征的缺点为类内特征相似度低，需要保持类间样本的特征方差。为了克服这些缺点，作者引入了对抗训练图（ATG）的新概念，利用ATG提出的具有特征可分性的对抗训练（ATFS）能够连贯地提高类内特征相似度和增加类间特征方差。实验结果表明论文所提出的ATFS框架显著提高了模型干净和鲁棒的性能。
论文链接： https://arxiv.org/abs/2205.00637
代码链接： https://github.com/no-name-submission/ATFS

2 预备知识

作者通过检测模型特征学习的质量从而探究模型对抗训练中出现过拟合问题的潜在原因。下图显示了从ResNet18模型的最后二层提取的学习特征，这些特征在CIFAR10数据集上通过不同的算法进行训练，包括自然训练、PGD对抗训练、TRADES和AWP方法，并且将提取出的特征通过t-SNE在二维空间中进行可视化展示，由下图可以得到如下发现：

自然训练的模型可以学习干净样本的鉴别特征。来自不同类别的样本得到了很好的分离，来自同一类别的样本的特征得到了很好的聚类。然而，自然训练的模型无法学习对抗样本的良好特征，对抗样本和干净样本的特征相去甚远。这可以反映为什么自然训练的模型可以实现高度干净的泛化，但鲁棒性能较低。
对于所有经过对抗训练的模型，包括PGD训练、TRADES和MART，样本的特征比自然训练的质量差得多，比如来自同一类的样本在特征空间中不会聚集在一起；不同类别的样本没有很好的分离。因此，训练后的模型通过学习的特征来区分不同类别的样本的能力较差。因此，这可能是对抗训练模型同时存在不令人满意的干净精度和对抗鲁棒性的关键原因之一。

这些观察结果揭示了现有对抗训练方法的两个缺点。类间特征方差是保守的，换句话说，该模型倾向于嵌入来自具有相似特征的不同类的样本。这使得来自不同类别的样本彼此无法区分，因此降低了干净分类的性能，也导致了模型鲁棒性不足。其次，类内特征相似度低导致特征空间中缺乏清晰的聚类。因此，该模型不能很容易地提取特定类的模式，这会降低干净分类的性能。这些缺点可能解释了对抗训练往往具有较大的自然和鲁棒泛化差距，并且无法实现模型的高干净分类准确率和高对抗鲁棒性能的。

3 论文方法

3.1 符号介绍

令 $\mathcal{D}=\{({\bf{x}}_i,y_i)\}^n_{i=1}$ 是一个训练数据集，其中 ${\bf{x}}_i$ 是一个干净训练样本， $y_i=\{1,\cdots,C\}$ 是训练数据的对应标签。相应地， $\{{\bf{x}}^{\prime}_i\}_{i=1}^n$ 表示的是在当前模型 $f_\theta$ 中干净样本集 $\{{\bf{x}}_i\}_{i=1}^n$ 的对抗样本集。对抗样本 ${\bf{x}}^{\prime}_i$ 和干净样本 ${\bf{x}}_i$ 有相同的标签 $y_i$ 。对抗训练的方法和其变体主要优化的是一个 $\min\text{-}\max$ 的一个损失函数，内部最大化主要目的是生成对抗样本，外部最小化主要目的是训练模型参数 $\theta$ ，目标函数如下所示： $\min\limits_{f_\theta}\max\limits_{\|\bf{x}^{\prime}-\bf{x}\|_p\le \epsilon}\mathcal{L}(f_\theta({\bf{x}}^{\prime}),y)$ 由上目标函数可知，对抗训练算法总要去学习混合特征，基于此发现，作者提出了特征分离对抗训练框架去学习数据样本以此达到如下三个目的：

增加干净样本和对抗样本的类内特征相似性；
增加干净样本和对抗样本的类内特征不相似性；
增加每个干净样本和对应对抗样本的特征相似性；

为了实现这些目标，作者首先引入对抗训练图（ATG）来编码训练样本之间所需的关系。具体过程为，作者首先会为对抗训练构建对抗训练图（ATG）。然后，作者详细描述了模型组件，以捕获ATG中不同类型的关系，从而实现上述目标。最后，作者给出了最终的优化目标和所提出的ATFS框架。

3.2 对抗训练图

作者具体对抗训练图的定义如下所示：

定义（对抗训练图）： 一个对抗训练图 $\mathcal{G}=\{\mathcal{V},\mathcal{E}^{+},\mathcal{E}^{-}\}$ 是一个具有节点集 $\mathcal{V}=\{{\bf{x}}_i\}_{i=1}^n \cup \{{\bf{x}}_i^{\prime}\}_{i=1}^n$ 的无向、加权和符号图。对抗训练图包含了一个正向链接 $\mathcal{E}^{+}$ 集和一个负向链接 $\mathcal{E}^{-}$ 集，其中 $\mathcal{E}^{+}$ 是连接相同类内的两个点， $\mathcal{E}^{-}$ 是连接不同类内的两个点。

在ATG中，正链接表示希望其两个节点相似；而负链接会鼓励两个节点之间的差异。特别是，为了实现上述三个目标，作者在ATG中引入了三种类型的链接，如下所示：

正链接 $\mathcal{E}^{+}$ ： 与样本 ${\bf{x}}_i$ 来自同一类的所有样本都通过正链接与 ${\bf{x}}_i$ 相连。作者构建了如下两种类型的正链接：
1） $\mathcal{E}_{\mathrm{ca}}^{+}$ ： 为了增强模型对对抗样本的鲁棒性，一种策略是在特征空间中将干净样本推到其对应的对抗样本附近，这样干净样本和对抗性样本的预测是一致的，因此模型不易受到对抗攻击。作者通过在ATG中为每个 ${\bf{x}}_i$ 添加一个正链接到其相应的对抗性样本 ${\bf{x}}_i^{\prime}$ 来实现这一点。每一条边连接着干净样本 ${\bf{x}}_i$ 和相应的对抗样本 ${\bf{x}}^{\prime}_i$ ，其中边的权重值为 $\eta_1$ 。
2） $\mathcal{E}_{\mathrm{intra}}^{+}$ ： 为了提高类内特征的相似性，一种直观的方法是强制来自同一类的样本在特征空间中接近。因此，对于标签为 $y_i$ 的节点 ${\bf{x}}_i$ ，作者将来自同一类 $y_i$ 的所有样本（包括干净样本和对抗样本）相连接。作者将类内正链接记作为 $\ E c a + \mathcal{E}^{+}\backslash\mathcal{E}^{+}_{\mathrm{ca}}$ ，其中边的权重值为 $\eta_2$ 。
负链接 $\mathcal{E}^{-}$ ： 为了增加类间特征方差，作者在ATG中不同类的两个节点之间构建负链接。每个负链接的权重为 $\eta_3$ 。

在对抗训练图中，作者提出了两种类型的正链接，通过控制它们的链接权重 $\eta_1$ 和 $\eta_2$ ，作者可以强制执行不同级别的相似性。与此同时，对抗训练图是一个完整的图，这表示对抗训练图中的任何一对节点通过正链接或负链接进行连接。作者使用 $\mathcal{E}_{\mathrm{ca}}^{+}(i)$ ， $\mathcal{E}_{\mathrm{intra}}^{+}$ 和 $\mathcal{E}^{-}(i)$ 为节点 ${\bf{x}}_i$ 表示三种不同的类型的链接，并定义 $\mathcal{E}(i)=\mathcal{E}^{+}_{\mathrm{ca}}(i)\cup \mathcal{E}_{\mathrm{intra}}^{+}(i)\cup \mathcal{E}^{-}(i)$ 表示跟 ${\bf{x}}_i$ 所有的链接。假定有一个来自 $2$ 个类别 ${a,b\}$ 的 $5$ 个样本 ${1,2,3,4,5\}$ 的数据集，其中 $\{1,2,3\}\in a$ 和 $\{4,5\}\in b$ ，作者使用 $\{1^{\prime},2^{\prime},3^{\prime},4^{\prime},5^{\prime}\}$ 表示的是相应的对抗样本。该数据集的对抗训练图的图解如下所示，图（a）表示干净样本与其对应的对抗样本之间的正联系，图（b）表示除 $\mathcal{E}_{\mathrm{ca}^{+}}$ 外的同一类别的正链接，图（c）仅显示了 $a$ 类样本“1”与 $b$ 类样本之间的负链接。

3.3 捕获ATG中链接信息

作者通过在对抗训练图中捕获链接信息，可以统一并同时实现上述三个目标。通常，对抗训练图为中心节点 ${\bf{x}}_i$ 周围不同样本的期望相似性提供指导。论文的目标是最大化正链接连接样本的表示相似度，最小化负链接连接样本的相似度，作者希望学习一个具有表示函数 $h(\cdot)$ 的模型，该函数具有较大的 $\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)$ ，其定义如下：
$\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)=\sum\limits_{({\bf{x}},{\bf{x}}_i^{\prime})\in\mathcal{E}_{\mathrm{ca}}^{+}(i)}s(h({\bf{x}}_i),h({\bf{x}}_i^{\prime}))+\sum\limits_{({\bf{x}},{\bf{x}}_j)\in\mathcal{E}_{\mathrm{intra}}^{+}(i)}s(h({\bf{x}}_i),h({\bf{x}}_j))-\sum\limits_{({\bf{x}}_i,{\bf{x}}_j)\in \mathcal{E}^{-}(i)}s(h({\bf{x}}_i),h({\bf{x}}_j))$ 其中 $s(\cdot,\cdot,\cdot)$ 是一个相似性函数。通过最大化在整个点集 $\mathcal{V}$ 中损失函数 $\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)$ ，因此可以在整个样本中达到这些目标。作者在损失函数 $\mathcal{L}_{\mathrm{FS}}$ 中定义函数 $s(\cdot,\cdot,\cdot)$ 去测量对抗训练图中正链接的一阶接近度。它在数学上表示为与节点 ${\bf{x}}_i$ 连接的所有链接之间存在正链接的概率，并用softmax函数建模。作者使用一个正链接 $({\bf{x}}_i,{\bf{x}}_i^{\prime})\in \mathcal{E}_{\mathrm{ca}}^{+}(i)$ 作为一个图示样本， $s(h({\bf{x}}_i),h({\bf{x}}^{\prime}_i))$ 的定义如下所示
$s(h({\bf{x}}_i,h({\bf{x}}_i^{\prime})))=\frac{\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_i^{\prime}))}{S}$ 其中 $S=\sum\limits_{({\bf{x}}_i,{\bf{x}}_i^{\prime})\in\mathcal{E}^{+}_{\mathrm{ca}}(i)}\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_i^{\prime}))+\sum\limits_{({\bf{x}}_i,{\bf{x}}_j)\in\mathcal{E}^{+}_{\mathrm{intra}}(i)}\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_j))+\sum\limits_{({\bf{x}}_i,{\bf{x}}_j)\in\mathcal{E}^{-}(i)}\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_j))$

假设表征函数 $h({\bf{x}}_i)$ 是被归一化的， $h({\bf{x}}_i)^{\top}h({\bf{x}}_i^{\prime})$ 本质上表示 $h({\bf{x}}_i)$ 和 $h({\bf{x}}_i^{\prime})$ 的余弦相似性。因此，最大化 $s(h({\bf{x}}_i),h({\bf{x}}_i^{\prime}))$ 可以自然地迫使将 $h({\bf{x}}_i)$ 和 $h({\bf{x}}_i^{\prime})$ 之间的相似性增大。根据 $s(\cdot,\cdot)$ 的定义， $\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)$ 可以重写为如下公式
$\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)=\frac{1}{S}\left(\sum\limits_{({\bf{x}}_i,{\bf{x}}_i^{\prime})\in\mathcal{E}_{\mathrm{ca}}^+(i)}\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_i^{\prime}))+\sum\limits_{({\bf{x}}_i,{\bf{x}}_j)\in\mathcal{E}^{+}_{\mathrm{intra}}(i)}\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_j))-\sum\limits_{({\bf{x}}_i,{\bf{x}}_j)\in\mathcal{E}^-(i)}\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_i^{\prime}))\right)$ 作者可以进一步简化以上公式中的 $\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)$ 作为 ${\bf{x}}_i$ 连接的所有正链接的对数似然平均值,并为不同类型的链接添加不同的权重。由于对抗训练图中不同节点可以有不同数量的正链接，作者还在损失函数 $\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)$ 中增加正则化项 $\frac{1}{|\mathcal{E}^{+}(i)|}$ ，此时则有特征分离损失定义如下所示
$\mathcal{L}_{\mathrm{FS}}(h,ATG,{\bf{x}}_i)=\frac{1}{|\mathcal{E}^{+}(i)|}\left(\eta_1 \cdot \sum\limits_{({\bf{x}}_i,{\bf{x}}_i^{\prime})\in \mathcal{E}^{+}_{\mathrm{ca}}(i)}\log \frac{\exp(h({\bf{x}}_i)^{\top}h({\bf{x}}_i^{\prime}))}{S}+\eta_2 \cdot \sum\limits_{({\bf{x}}_i,{\bf{x}}_j)\in \mathcal{E}^{+}_{\mathrm{intra}}(i)}\log \frac{\mathrm{exp}(h({\bf{x}}_i)^{\top}h({\bf{x}}_j))}{S}\right)$

3.4 ATFS算法

特征分离的对抗训练（ATFS）的最终目标函数是交叉熵损失和对抗训练图损失函数的组合如下所示：
$\min\limits_{f_\theta}\sum\limits_{x_i\in \mathcal{D}}\alpha\cdot \mathcal{L}_{\mathrm{adv}}(f({\bf{x}}_i^{\prime}),y_i)-\sum\limits_{x_i\in \mathcal{V}}\beta \cdot \mathcal{L}_{\mathrm{FS}}(F(\cdot),ATG,{\bf{x}}_i)$ 其中 $F(\cdot)$ 表示的是模型提取的特征，它是模型倒数第二层的输出。以上公式的第一项是交叉熵损失函数，其目的是最小化对抗样本和正确标签的损失。作者可以根据不同的对抗训练算法灵活地计算损失函数 $\mathcal{L}_{\mathrm{adv}}$ 。第二项是特征分离损失函数，这有助于模型学习可分离的特征表示。预定义了两个参数 $\alpha$ 和 $\beta$ ，以平衡这两项损失函数的贡献。在这项工作中，作者采用SGD来优化所提出的目标函数。对抗训练特征分离（ATFS）算法如下图所示：

4 实验结果

下面两个表格显示了不同对抗训练方法在模型ResNet18上分别在CIFAR10和SVHN数据集上的性能比较，可以发现论文中提出的方法ATFS要优于两种经典的对抗训练方法。ATFS训练得到的模型鲁棒精度比AT和TRADES都取得了一定的提高，同时保持类似或更好的干净分类精度。另外，ATFS与其它对抗训练方法相结合也取得了很好的分类性能。

如下图所示，红线表示干净分类性能，蓝线表示对抗鲁棒性能。可以观察到，与CIFAR10数据集上的标准对抗训练（ $\beta=0$ ）相比，随着 $\mathcal{L}_{\mathrm{FS}}$ 权重的增加，鲁棒性性能也随之提高了4.2%，而且并没有观察到干净分类精度的明显下降，这与SVHN数据集中的结果一致。

下面两张图分别显示了 $\beta=0.01$ 和 $\beta=0.1$ 时，标准对抗训练模型和ATFS框架训练模型的t-SNE特征可视化。对于ATFS来说，来自不同类的样本表示可以很好地进行分离。尤其是，ATFS中的干净样本与其对应的对抗样本之间的距离比标准对抗样本更近。这就表明了论文中提出的目标可以更好地学习了特征，从而这也解释了为什么ATFS在干净样本和对抗样本上都能获得良好的分类性能。

如图下图所示，第 $i$ 行和第 $j$ 列中的值表示 $i$ 类和 $j$ 类样本的平均特征相似度，颜色越深表示相似度越高。与图（a）标准对抗性训练相比，图（b）ATFS的对角线上的值更大，这表明ATFS框架训练的模型具有更大的类内特征相似性。另一方面，图（b）ATFS其余部分比图（a）标准对抗训练要轻，这表明类间特征差异较大。总之，特征可视化和特征相似性都验证了ATFS已经实现了上述三个目标，并说明了为什么ATFS可以实现更好的性能。

5 总结

论文中出现的生词
preliminary: 预备性的	unsatisfactory: 不能令人满意的
illustration: 插图	discriminative: 有判别力的
conservative: 保守的	indistinguishable: 无法区分的
degrade: 降低	phenomenon: 现象
mitigating: 缓解	aforementioned: 上述的
dissimilarity: 相异性	counterpart: 对应方
benchmark: 基准	calibrate: 校准
remaining: 剩下的	unified: 统一的
simultaneously: 同时	proximity: 接近
denominator: 分母	flexibility: 灵活性
essentially: 本质上