最优传输理论下对抗攻击可解释性_图对抗攻击可解释性分析-CSDN博客

本文研究了深度学习中的对抗攻击，从最优传输理论角度进行了解释。作者提出，梯度方向不仅是最优传输方案，也是构造对抗样本的方向。通过调整损失函数，可以找到鲁棒性和可解释性的平衡。实验表明，最优传输网络的解释性优于传统方法，为对抗攻击提供了一种可理解的视角。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 引言

该论文是关于对抗攻击理论性的文章，作者为对抗攻击提供了非常可靠的解释性。当前最优传输理论是深度学习理论中非常热门一个的方向，作者从最优传输理论的角度去分析对抗攻击的现象。当学习具有最优传输问题对偶损失的 $1-Lipschitz1\text{-}\mathrm{Lipschitz}$ 神经网络时，模型的梯度既是最优传输方案的方向，也是最接近对抗样本的方向。沿着梯度移动到决策边界不再是一种对抗攻击，而是一种反事实的解释，即可以看作明确地从一个类传输到另一个类。通过对可解释 $AI\mathrm{AI}$ 度量的大量实验可以发现，应用于最优传输网络的简单显著性映射方法是一种可靠的解释，并且在无约束模型上优于最新的解释方法。
论文链接： https://arxiv.org/pdf/2206.06854.pdf

2 最优传输，鲁棒性和可解释性

令 $π\pi$ 是关于最小化损失函数 $Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}$ 的最优传输方案。给定 $x∈P+(P−){\bf{x}}\in P_{+}(P_{-})$ ，令 $y∈trπ(x)∈P−(P+){\bf{y}}\in\mathrm{tr}_{\pi}({\bf{x}})\in P_{-}(P_{+})$ 是 $x{\bf{x}}$ 关于 $π\pi$ 的图像。因为 $π\pi$ 是不确定的，可以令 $trπ(x)\mathrm{tr}_\pi({\bf{x}})$ 作为关于 $π\pi$ 的最大点，进而有如下命题：

命题1（传输计划方向）： 令 $f^{*}$ 是最小化损失函数 $Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}$ 的一个最优解。给定 $x∈P+(x∈P−){\bf{x}}\in P_+({\bf{x}}\in P_-)$ 和 $y=trπ(x){\bf{y}}=\mathrm{tr}_\pi ({\bf{x}})$ ，那么当 $∃t≥0(t≤0)\exists t \ge 0(t\le 0)$ ，则有 $y=x−t∇xf∗(x){\bf{y}}={\bf{x}}-t \nabla_{\bf{x}}f^*({\bf{x}})$ 几乎处处成立。

这个没有 $hinge\mathrm{hinge}$ 正则化的命题对于 $K-R\mathrm{K\text{-}R}$ 对偶问题为真。它证明了对于大多数 $x∈P+⋃P−{\bf{x}}\in P_+ \bigcup P_-$ ， $∇xf∗(x)\nabla_{\bf{x}} f^*({\bf{x}})$ 表示传输方案的方向。

命题2（决策边界）： 令 $P_+$ 和 $P_-$ 为两个有最小距离 $ϵ\epsilon$ 的可分离的分布， $f^*$ 为最小化损失函数 $Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}$ 的一个最优解，其中 $\epsilon$ 。给定 $x∈P+∪P−{\bf{x}}\in P_+ \cup P_-$ 和 $y=trπ(x)∈{x−t∇xf∗(x)}{\bf{y}}=\mathrm{tr}_\pi({\bf{x}})\in\{{\bf{x}}-t \nabla_x f^*({\bf{x}})\}$ ，则有 $t|>|f^*(x)|$ 和 $xδ=x−f∗(x)∇xf∗(x)∈δf∗x_\delta={\bf{x}}-f^*({\bf{x}})\nabla_{\bf{x}}f^*({\bf{x}})\in \delta f^*$ ，其中 $δf∗={x′∈Ω∣f∗(x′)=0}\delta f^*=\{x^{\prime}\in \Omega|f^*(x^{\prime})=0\}$ 是决策边界。

推论1： 令 $P_+$ 和 $P_-$ 为两个有最小距离 $ϵ\epsilon$ 的可分离的分布， $f^*$ 为最小化损失函数 $Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}$ 的一个最优解，其中 $\epsilon$ ,给定 $x∈P+∪P−{\bf{x}}\in P_+ \cup P_-$ ，则有 $adv(f∗,x)=xδ\mathrm{adv}(f^*,{\bf{x}})=x_\delta$ 几乎处处成立，其中 $xδ=x−f∗(x)∇xf∗(x)x_\delta={\bf{x}}-f^*({\bf{x}})\nabla_{\bf{x}} f^*({\bf{x}})$ 。

推论1表明，基于损失函数 $Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}$ 的分类器精确地得到对抗样本。在这种情况下，最佳对抗攻击是在梯度方向上，应用于最优传输神经网络模型的所有攻击，如 $PGD\mathrm{PGD}$ 攻击或 $C&W\mathrm{C\&W}$ 攻击，都等效于 $FGSM\mathrm{FGSM}$ 攻击。为了说明这些命题，作者学习了一个损失函数为 $Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}$ 的密集二元分类器来分离两个复杂分布。下图（a）显示了两种分布（蓝色和橙色雪花），学习的边界（红色虚线）。下图（b）和（c）显示了两个分布中的随机样本 $x\bf{x}$ ，其中 $xδ{\bf{x}}_\delta$ 定义在命题2中的段 $[x,xδ][{\bf{x}},{\bf{x}}_\delta]$ 。正如命题2所所描述的那样，该点正好落在决策边界上。此外，如命题1所述，每个片段提供了图像相对于运输计划的方向。

作者证明了使用最优传输神经网络时，对抗攻击在形式上是被已知的，并且易于计算。此外，作者还证明了对抗攻击是沿着传输映射进行的，因此对抗攻击不再是一种不可察觉的修改，而是对样本的一种可以理解的转换。作者将利用这些属性来显示 $∇xf∗(x)\nabla_x f^*({\bf{x}})$ 提供了一种自然的反事实解释，它具有可证明的解释性属性。
给定 $P_+$ 类中样本 $x\bf{x}$ 的反事实解释是最接近的样本 $y∈P−{\bf{y}}\in P_−$ 。由于通常无法直接获得 $P_+$ 和 $P_−$ 的全局信息，所以作者仅针对分类器 $f$ 来获取其局部信息。在这种情况下，反事实对应于命题2中定义的对抗攻击。对于经典的神经网络，这只能通过添加对抗噪声来实现，这不是一个有价值的解释。由于它只依赖于 $x\bf{x}$ 和 $f$ ，这种反事实解释的定义是局部的。相反，作为 $Lλ,mhKRL_{\lambda,m}^{hKR}$ 的最小值的传输方案描述了从 $P_+$ 类到 $P_-$ 的最优方案，所以传输方案是一种全局的反事实解释，并且 $∇xf∗(x)\nabla_{\bf{x}} f^*({\bf{x}})$ 是对 $x{\bf{x}}$ 的局部解释。需要注意的是，传输方案并没有在相反的类上提供最接近的样本，但在配对过程中提供了最接近的平均值。根据命题1，最优传输方案中 $x\bf{x}$ 的图像为 $y=x+t∇xf∗(x){\bf{y}}={\bf{x}}+t\nabla_{\bf{x}}f^*({\bf{x}})$ 。即使 $t$ 仅部分已知，当 $t=f∗(x)t=f^*({\bf{x}})$ 时，可知 $y\bf{y}$ 在决策边界上，并且可以进一步确定 $∣t∣≥∣f(x)∣|t|\ge|f(x)|$ 在最优传输方案的路径上。
以往显著图 $ϕx(i)=∣∂flxi∣\phi_x(i)=\left|\frac{\partial f_l}{x_i}\right|$ 对分类器分类现象只提供了一个非常直观模糊的解释，在该论文中，作者在最优传输神经网络中提出了一个非常值得信赖的解释。 $∇xf∗(x)\nabla_x f^*(x)$ 表示的是最优传输方案的方向，因此显著图 $ϕx(i)=∣∂flxi∣\phi_x(i)=\left|\frac{\partial f_l}{x_i}\right|$ 表示的是每个输入特征在该方向上的重要程度。

3 $hKR\mathrm{hKR}$ 损失函数

要知道 $1-Lipschitz1\text{-}\mathrm{Lipschitz}$ 函数的一个缺点是，它强烈依赖于损失函数的参数。在二分类情况下， $LλhKRL^{hKR}_{\lambda}$ 有两个参数：分别间隙参数 $m$ 和权重参数 $λ\lambda$ ，其中 $λ\lambda$ 用于权衡分类模型的鲁棒性和准确性。当类是可分的且 $m$ 足够小时，损失函数中的 $hinge\mathrm{hinge}$ 部分会趋于 $0$ 。这会使得参数 $m$ 很难选择，在该论文中作者提出了一个新的损失公式如下所示： $Lλ,αhKR(f)=Ex∼P−[f(x)]−Ex∼P+[f(x)]+λ(Ex(m−Yf(x))++αm)\mathcal{L}^{hKR}_{\lambda,\alpha}(f)=\mathbb{E}_{{\bf{x}}\sim P_{- }}[f({\bf{x}})]-\mathbb{E}_{{\bf{x}}\sim P_{+}}[f({\bf{x}})]+\lambda(\mathbb{E}_{{\bf{x}}}(m-Y f({\bf{x}}))_++\alpha m)$ 其中 $m > 0$ 是一个可学习的参数， $0<α<10<\alpha<1$ 是一个新的参数。 $f(x)f({\bf{x}})$ 在边界间隙是一个均匀分布，当 $x{\bf{x}}$ 的比率为 $α\alpha$ 时，使得 $f(x)≤mf({\bf{x}})\le m$ ，则最优间隙参数 $m$ 可以被获得，后者可以解释为损失的关键部分所涉及的目标数据比例。选择 $λ≈1α\lambda\approx \frac{1}{\alpha}$ ，在优化过程中， $KR\mathrm{KR}$ 的权重部分与 $hinge\mathrm{hinge}$ 部分大体一致。使用这种方法，可以选择的唯一参数是 $α\alpha$ ，它可以解释为学习过程中目标的近似错误率。
给定一个有 $q$ 类的多分类问题， $,fqf_1,\cdots,f_q$ 是一个一对多的二分类器，损失函数如下所示 $,fq(x)),y)\mathcal{L}^{hKR}_\lambda(f_1,\cdots,f_q)=\sum\limits_{k=1}^q\left[\mathbb{E}_{{\bf{x}}\sim \neg P_k}[f_k({\bf{x}})]-\mathbb{E}_{{\bf{x}}\sim P_k}[f_k({\bf{x}})]\right]+\lambda \mathbb{E}_{{\bf{x}},{\bf{y}}\bigcup\limits_{k=1}^q P_k}(H(f_1({\bf{x}}),\cdots,f_q({\bf{x}})),y)$ 其中 $,fq(x))=∑k=1qm−(2∗Iy=k−1)∗fk(x)H(f_1({\bf{x}}),\cdots,f_q({\bf{x}}))=\sum\limits_{k=1}^q m-(2 *\mathbb{I}_{y=k}-1)*f_k({\bf{x}})$ 以上公式主要有三个缺点：其一是每个类的最佳边距可能不同，导致会有大量超参数需要被调参；其二是对于大量类中样本分布不平衡可能会导致模型收敛速度缓慢；其三是 $fy(x)f_{\bf{y}}({\bf{x}})$ （真实类别的函数）相对于其他类别的权重随着类别数量的增加而降低。为了克服这些缺点，作者提出了一种基于 $softmax\mathrm{softmax}$ 的 $hinge\mathrm{hinge}$ 正则化损失函数： $,fq(x))=my−12fy(x)+12∑k≠yfk(x)∗efk(x)∑j≠yefj(x)+αmyH^\alpha_{\mathrm{soft}}(f_1({\bf{x}}),\cdots,f_q({\bf{x}}))=m_y-\frac{1}{2}f_y({\bf{x}})+\frac{1}{2}\sum\limits_{k\ne y}f_k({\bf{x}})*\frac{e^{f_k({\bf{x}})}}{\sum\limits_{j\ne y}e^{f_j({\bf{x}})}}+\alpha m_y$ 其中 $my≥0m_y \ge 0$ ，对于真实的类别， $fy(x)f_{\bf{y}}({\bf{x}})$ 和其它函数总是有相同的权重。在学习的初期阶段，因为 $f_k$ 的取值是平均的；在训练的过程中， $f_k$ 的值会逐渐不同，直至某个分量出现最大值并稳定。

4 实验结果

作者使用插入和删除指标评估最优传输神经网络的显著图解释的质量。在 $CelebA\mathrm{CelebA}$ 和 $FashionMNIST\mathrm{FashionMNIST}$ 数据集上针对两种类型的网络评估经典解释方法。下表显示在显著图方法在最优传输神经网络上的指标上变得具有竞争力并且提供了更加可靠的解释性。

下表评估了不同数据集在最优传输网络上两个指标 $L_2$ 和 $Spearman\mathrm{Spearman}$ 等级相关系数 $ρ\rho$ 。最优传输网络上解释距离远低于无约束的解释距离，并且非常接近于 $0$ 。

下图为定性可视化结果，可以直观的发现说明了在最优神经网络中提供了更好更清晰的解释性。

从下表定量结果可以直观的发现，通过所有这些实验得出结论，使用多种类型的解释指标，最优传输神经网络的可解释性优于无约束的神经网络。
下面两张图分别在 $CelebA\mathrm{CelebA}$ 和 $FashionMNIST\mathrm{FashionMNIST}$ 数据集上学习到的最优传输网络，下面两张图显示了原始图像，通道上的平均梯度 $∇xfj\nabla_x f_j$ ，以及有传输方案方向的图像。可以直观的发现，大多数梯度在视觉上都是一致的。

5 附录证明

关于损失函数 $Lλ,mhKR\mathcal{L}_{\lambda,m}^{hKR}$ 的最优传输问题如下所示 $inf⁡f∈Lip1(Ω)Lλ(f),mhKR=inf⁡π∈Πλp(P+,P−)∫Ω×Ω∣x−z∣dπ+πz(Ω)−1\inf\limits_{f\in \mathrm{Lip}_1(\Omega)} \mathcal{L}_{\lambda(f),m}^{hKR}=\inf\limits_{\pi \in \Pi_\lambda^p(P_+,P_-)}\int_{\Omega \times \Omega}|{\bf{x}}-{\bf{z}}|d\pi +\pi_{{\bf{z}}}(\Omega)-1$ 其中 $Πλp(P+,P−)\Pi^p_{\lambda}(P_+,P_-)$ 表示包含关于联合测度 $P_+\times dP_-$ ， $dπxdP+∈[p,p(m+λ)]\frac{d \pi_{\bf{x}}}{d P_+}\in[p,p(m+\lambda)]$ 和 $dπzdP−∈[1−p,(1−p)(m+λ)]\frac{d \pi_{{\bf{z}}}}{d P_-}\in[1-p,(1-p)(m+\lambda)]$ 的正测度 $π∈M+(Ω×Ω)\pi\in \mathcal{M}_{+}(\Omega\times \Omega)$ 的集合， $π∗\pi^*$ 是最优传输方案， $f^*$ 是相应的势函数。
命题1证明： 已知有 $∥∇xf∗(x)∥=1\|\nabla_x f^*({\bf{x}})\|=1$ 几乎处处成立，并且有 $P(x,y)∼π∗(∣f∗(x)−f∗(y)∣=∥x−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim \pi^*}(|f^*({\bf{x}})-f^*({\bf{y}})|=\|{\bf{x}}-{\bf{y}}\|)=1$ 给定 $0≤α≤1{\bf{x}}_\alpha=\alpha * x+(1-\alpha){\bf{y}},\text{ }0\le \alpha \le 1$ 有 $P(x,y)∼π∗(∇xf∗(xα)=xα−y∥xα−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim\pi^*}\left(\nabla_x f^*({\bf{x}}_\alpha)=\frac{{\bf{x}}_\alpha - {\bf{y}}}{\|{\bf{x}}_\alpha -{\bf{y}}\|}\right)=1$ 当 $α=1\alpha=1$ 时，则有 $P(x,y)∼π∗(∇xf∗(x)=x−y∥x−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim\pi^*}\left(\nabla_x f^*({\bf{x}})=\frac{{\bf{x}} - {\bf{y}}}{\|{\bf{x}} -{\bf{y}}\|}\right)=1$ 进而则有
$P(x,y)∼π∗(y=x−∇xf∗(x)∥x−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim \pi^*}({\bf{y}}={\bf{x}}-\nabla_x f^*({\bf{x}}) \|{\bf{x}}-{\bf{y}}\|)=1$ 所以当选择 $t=∥x−y∥t=\|{\bf{x}}-{\bf{y}}\|$ 时，命题1证明成立。

命题2证明： 令 $P_+$ 和 $P_-$ 是两个可分离的分布，有最小距离 $ϵ\epsilon$ 和最小化损失函数 $Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}$ 的最优解，其中 $\epsilon$ 。 $∀x∈P+\forall {\bf{x}}\in P_+$ ， $f∗(x)≥0f^*({\bf{x}})\ge 0$ 和 $∀y∈P−\forall {\bf{y}}\in P_-$ ， $f∗(y)≤0f^*({\bf{y}})\le 0$ 。给定 $x∈P+{\bf{x}}\in P_+$ 和 $y=tr(x)=x−t∇xf∗(x){\bf{y}}=\mathrm{tr}({\bf{x}})={\bf{x}}-t \nabla_x f^*({\bf{x}})$ 和 $y∈P−{\bf{y}}\in P_-$ ，根据命题1可知 $∣f∗(x)−f∗(y)∣=∥x−y∥∣f∗(x)−f∗(y)∣=∥x−(x−t∇xf∗(x))∥∣f∗(x)−f∗(y)∣=∥t∇xf∗(x)∥∣f∗(x)−f∗(y)∣=t∥∇xf∗(x)∥f∗(x)−f∗(y)=tf∗(y)=f∗(x)−t\begin{aligned}|f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=\|{\bf{x}}-{\bf{y}}\|\\|f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=\|{\bf{x}}-({\bf{x}}-t\nabla_x f^*({\bf{x}}))\|\\ |f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=\|t \nabla_x f^*({\bf{x}})\|\\ |f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=t \|\nabla_x f^*({\bf{x}})\|\\ f^{*}({\bf{x}})-f^{*}({\bf{y}})&= t\\ f^*({\bf{y}})&=f^*({\bf{x}})-t\end{aligned}$ 其中 $t≥0t\ge 0$ ， $∇xf∗(x)=1\nabla_x f^*({\bf{x}})=1$ ， $f∗(x)≥0f^*({\bf{x}})\ge 0$ ， $f∗(y)≤0f^*({\bf{y}})\le 0$ 。当 $f∗(y)≤0f^*({\bf{y}})\le 0$ 时，则有 $f∗(x)≤tf^*({\bf{x}})\le t$ 因为 $f^*$ 是连续的， $∃t′>0\exists t^{\prime}>0$ ， $xδ=x−t′∇xf∗(x){\bf{x}}_\delta={\bf{x}}-t^{\prime}\nabla_x f^*({\bf{x}})$ 和 $f∗(x)f^*({\bf{x}})$ ，则有 $∣f∗(x)−f∗(xδ)∣≤∥x−xδ∥f∗(x)≤∥x−(x−t′∇xf∗(x))∥f∗(x)≤t′\begin{aligned}|f^*({\bf{x}})-f^*({\bf{x}}_\delta)|&\le\|{\bf{x}}-{\bf{x}}_\delta\|\\f^{*}({\bf{x}})&\le \|{\bf{x}}-({\bf{x}}-t^{\prime}\nabla_x f^*({\bf{x}}))\|\\ f^*({\bf{x}})&\le t^{\prime}\end{aligned}$ 和 $∣f∗(xδ)−f∗(y)∣≤∥xδ−y∥−f∗(y)≤∥(x−t′∇xf∗(x))−(x−t∇xf∗(x))∥−f∗(y)≤t−t′−f∗(y)≤∥x−y∥−t′\begin{aligned}|f^*({\bf{x}}_\delta)-f^*({\bf{y}})|&\le \|{\bf{x}}_\delta -{\bf{y}}\|\\ -f^*({\bf{y}})&\le \|({\bf{x}}-t^{\prime}\nabla_x f^*({\bf{x}}))-({\bf{x}}-t \nabla_x f^*({\bf{x}}))\|\\ -f^*({\bf{y}})&\le t - t^\prime \\ -f^*({\bf{y}})& \le \|{\bf{x}}-{\bf{y}}\|-t^{\prime}\end{aligned}$ 如果 $f∗(x)<t′f^*({\bf{x}})<t^{\prime}$ ，则有 $f∗(x)−f∗(y)≤t′+∥x−y∥−t′f∗(x)−f∗(y)<∥x−y∥\begin{aligned}f^*({\bf{x}})-f^*({\bf{y}})&\le t^{\prime}+\|{\bf{x}}-{\bf{y}}\|-t^{\prime}\\ f^*({\bf{x}})-f^*({\bf{y}})&< \|{\bf{x}}-{\bf{y}}\|\end{aligned}$ 此时出现矛盾，所以则有 $f∗(x)=tf^*({\bf{x}})=t$ 和 $xδ=x−f∗(x)∇xf∗(x){\bf{x}}_\delta={\bf{x}}-f^*({\bf{x}})\nabla_x f^*({\bf{x}})$ 。

生词总结

论文中出现的生词
proposition: 命题	minimizer:最小化
deterministic:确定性	counterfactual:反事实
automatic: 自动的	margin:空隙
separable:可分离的	deletion: 删除