1 引言
该论文是关于对抗攻击理论性的文章,作者为对抗攻击提供了非常可靠的解释性。当前最优传输理论是深度学习理论中非常热门一个的方向,作者从最优传输理论的角度去分析对抗攻击的现象。当学习具有最优传输问题对偶损失的1-Lipschitz1\text{-}\mathrm{Lipschitz}1-Lipschitz神经网络时,模型的梯度既是最优传输方案的方向,也是最接近对抗样本的方向。沿着梯度移动到决策边界不再是一种对抗攻击,而是一种反事实的解释,即可以看作明确地从一个类传输到另一个类。通过对可解释AI\mathrm{AI}AI度量的大量实验可以发现,应用于最优传输网络的简单显著性映射方法是一种可靠的解释,并且在无约束模型上优于最新的解释方法。
论文链接: https://arxiv.org/pdf/2206.06854.pdf
2 最优传输,鲁棒性和可解释性
令π\piπ是关于最小化损失函数Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}Lλ,mhKR的最优传输方案。给定x∈P+(P−){\bf{x}}\in P_{+}(P_{-})x∈P+(P−),令y∈trπ(x)∈P−(P+){\bf{y}}\in\mathrm{tr}_{\pi}({\bf{x}})\in P_{-}(P_{+})y∈trπ(x)∈P−(P+)是x{\bf{x}}x关于π\piπ的图像。因为π\piπ是不确定的,可以令trπ(x)\mathrm{tr}_\pi({\bf{x}})trπ(x)作为关于π\piπ的最大点,进而有如下命题:
命题1(传输计划方向): 令f∗f^{*}f∗是最小化损失函数Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}Lλ,mhKR的一个最优解。给定x∈P+(x∈P−){\bf{x}}\in P_+({\bf{x}}\in P_-)x∈P+(x∈P−)和y=trπ(x){\bf{y}}=\mathrm{tr}_\pi ({\bf{x}})y=trπ(x),那么当∃t≥0(t≤0)\exists t \ge 0(t\le 0)∃t≥0(t≤0),则有y=x−t∇xf∗(x){\bf{y}}={\bf{x}}-t \nabla_{\bf{x}}f^*({\bf{x}})y=x−t∇xf∗(x)几乎处处成立。
这个没有hinge\mathrm{hinge}hinge正则化的命题对于K-R\mathrm{K\text{-}R}K-R对偶问题为真。它证明了对于大多数x∈P+⋃P−{\bf{x}}\in P_+ \bigcup P_-x∈P+⋃P−,∇xf∗(x)\nabla_{\bf{x}} f^*({\bf{x}})∇xf∗(x)表示传输方案的方向。
命题2(决策边界): 令P+P_+P+和P−P_-P−为两个有最小距离ϵ\epsilonϵ的可分离的分布,f∗f^*f∗为最小化损失函数Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}Lλ,mhKR的一个最优解,其中m<2ϵm<2 \epsilonm<2ϵ。给定x∈P+∪P−{\bf{x}}\in P_+ \cup P_-x∈P+∪P−和y=trπ(x)∈{x−t∇xf∗(x)}{\bf{y}}=\mathrm{tr}_\pi({\bf{x}})\in\{{\bf{x}}-t \nabla_x f^*({\bf{x}})\}y=trπ(x)∈{x−t∇xf∗(x)},则有∣t∣>∣f∗(x)∣|t|>|f^*(x)|∣t∣>∣f∗(x)∣和xδ=x−f∗(x)∇xf∗(x)∈δf∗x_\delta={\bf{x}}-f^*({\bf{x}})\nabla_{\bf{x}}f^*({\bf{x}})\in \delta f^*xδ=x−f∗(x)∇xf∗(x)∈δf∗,其中δf∗={x′∈Ω∣f∗(x′)=0}\delta f^*=\{x^{\prime}\in \Omega|f^*(x^{\prime})=0\}δf∗={x′∈Ω∣f∗(x′)=0}是决策边界。
推论1: 令P+P_+P+和P−P_-P−为两个有最小距离ϵ\epsilonϵ的可分离的分布,f∗f^*f∗为最小化损失函数Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}Lλ,mhKR的一个最优解,其中m<2ϵm<2 \epsilonm<2ϵ,给定x∈P+∪P−{\bf{x}}\in P_+ \cup P_-x∈P+∪P−,则有adv(f∗,x)=xδ\mathrm{adv}(f^*,{\bf{x}})=x_\deltaadv(f∗,x)=xδ几乎处处成立,其中xδ=x−f∗(x)∇xf∗(x)x_\delta={\bf{x}}-f^*({\bf{x}})\nabla_{\bf{x}} f^*({\bf{x}})xδ=x−f∗(x)∇xf∗(x)。
推论1表明,基于损失函数Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}Lλ,mhKR的分类器精确地得到对抗样本。在这种情况下,最佳对抗攻击是在梯度方向上,应用于最优传输神经网络模型的所有攻击,如PGD\mathrm{PGD}PGD攻击或C&W\mathrm{C\&W}C&W攻击,都等效于FGSM\mathrm{FGSM}FGSM攻击。为了说明这些命题,作者学习了一个损失函数为Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}Lλ,mhKR的密集二元分类器来分离两个复杂分布。下图(a)显示了两种分布(蓝色和橙色雪花),学习的边界(红色虚线)。下图(b)和(c)显示了两个分布中的随机样本x\bf{x}x,其中xδ{\bf{x}}_\deltaxδ定义在命题2中的段[x,xδ][{\bf{x}},{\bf{x}}_\delta][x,xδ]。正如命题2所所描述的那样,该点正好落在决策边界上。此外,如命题1所述,每个片段提供了图像相对于运输计划的方向。
作者证明了使用最优传输神经网络时,对抗攻击在形式上是被已知的,并且易于计算。此外,作者还证明了对抗攻击是沿着传输映射进行的,因此对抗攻击不再是一种不可察觉的修改,而是对样本的一种可以理解的转换。作者将利用这些属性来显示∇xf∗(x)\nabla_x f^*({\bf{x}})∇xf∗(x)提供了一种自然的反事实解释,它具有可证明的解释性属性。
给定P+P_+P+类中样本x\bf{x}x的反事实解释是最接近的样本y∈P−{\bf{y}}\in P_−y∈P−。由于通常无法直接获得P+P_+P+和P−P_−P−的全局信息,所以作者仅针对分类器fff来获取其局部信息。在这种情况下,反事实对应于命题2中定义的对抗攻击。对于经典的神经网络,这只能通过添加对抗噪声来实现,这不是一个有价值的解释。由于它只依赖于x\bf{x}x和fff,这种反事实解释的定义是局部的。相反,作为Lλ,mhKRL_{\lambda,m}^{hKR}Lλ,mhKR的最小值的传输方案描述了从P+P_+P+类到P−P_-P−的最优方案,所以传输方案是一种全局的反事实解释,并且∇xf∗(x)\nabla_{\bf{x}} f^*({\bf{x}})∇xf∗(x)是对x{\bf{x}}x的局部解释。需要注意的是,传输方案并没有在相反的类上提供最接近的样本,但在配对过程中提供了最接近的平均值。根据命题1,最优传输方案中x\bf{x}x的图像为y=x+t∇xf∗(x){\bf{y}}={\bf{x}}+t\nabla_{\bf{x}}f^*({\bf{x}})y=x+t∇xf∗(x)。即使ttt仅部分已知,当t=f∗(x)t=f^*({\bf{x}})t=f∗(x)时,可知y\bf{y}y在决策边界上,并且可以进一步确定∣t∣≥∣f(x)∣|t|\ge|f(x)|∣t∣≥∣f(x)∣在最优传输方案的路径上。
以往显著图ϕx(i)=∣∂flxi∣\phi_x(i)=\left|\frac{\partial f_l}{x_i}\right|ϕx(i)=∣∣∣xi∂fl∣∣∣对分类器分类现象只提供了一个非常直观模糊的解释,在该论文中,作者在最优传输神经网络中提出了一个非常值得信赖的解释。∇xf∗(x)\nabla_x f^*(x)∇xf∗(x)表示的是最优传输方案的方向,因此显著图ϕx(i)=∣∂flxi∣\phi_x(i)=\left|\frac{\partial f_l}{x_i}\right|ϕx(i)=∣∣∣xi∂fl∣∣∣表示的是每个输入特征在该方向上的重要程度。
3 hKR\mathrm{hKR}hKR损失函数
要知道1-Lipschitz1\text{-}\mathrm{Lipschitz}1-Lipschitz函数的一个缺点是,它强烈依赖于损失函数的参数。在二分类情况下,LλhKRL^{hKR}_{\lambda}LλhKR有两个参数:分别间隙参数mmm和权重参数λ\lambdaλ,其中λ\lambdaλ用于权衡分类模型的鲁棒性和准确性。当类是可分的且mmm足够小时,损失函数中的hinge\mathrm{hinge}hinge部分会趋于000。这会使得参数mmm很难选择,在该论文中作者提出了一个新的损失公式如下所示:Lλ,αhKR(f)=Ex∼P−[f(x)]−Ex∼P+[f(x)]+λ(Ex(m−Yf(x))++αm)\mathcal{L}^{hKR}_{\lambda,\alpha}(f)=\mathbb{E}_{{\bf{x}}\sim P_{-
}}[f({\bf{x}})]-\mathbb{E}_{{\bf{x}}\sim P_{+}}[f({\bf{x}})]+\lambda(\mathbb{E}_{{\bf{x}}}(m-Y f({\bf{x}}))_++\alpha m)Lλ,αhKR(f)=Ex∼P−[f(x)]−Ex∼P+[f(x)]+λ(Ex(m−Yf(x))++αm)其中m>0m>0m>0是一个可学习的参数,0<α<10<\alpha<10<α<1是一个新的参数。f(x)f({\bf{x}})f(x)在边界间隙是一个均匀分布,当x{\bf{x}}x的比率为α\alphaα时,使得f(x)≤mf({\bf{x}})\le mf(x)≤m,则最优间隙参数mmm可以被获得,后者可以解释为损失的关键部分所涉及的目标数据比例。选择λ≈1α\lambda\approx \frac{1}{\alpha}λ≈α1,在优化过程中,KR\mathrm{KR}KR的权重部分与hinge\mathrm{hinge}hinge部分大体一致。使用这种方法,可以选择的唯一参数是α\alphaα,它可以解释为学习过程中目标的近似错误率。
给定一个有qqq类的多分类问题,f1,⋯ ,fqf_1,\cdots,f_qf1,⋯,fq是一个一对多的二分类器,损失函数如下所示LλhKR(f1,⋯ ,fq)=∑k=1q[Ex∼¬Pk[fk(x)]−Ex∼Pk[fk(x)]]+λEx,y⋃k=1qPk(H(f1(x),⋯ ,fq(x)),y)\mathcal{L}^{hKR}_\lambda(f_1,\cdots,f_q)=\sum\limits_{k=1}^q\left[\mathbb{E}_{{\bf{x}}\sim \neg P_k}[f_k({\bf{x}})]-\mathbb{E}_{{\bf{x}}\sim P_k}[f_k({\bf{x}})]\right]+\lambda \mathbb{E}_{{\bf{x}},{\bf{y}}\bigcup\limits_{k=1}^q P_k}(H(f_1({\bf{x}}),\cdots,f_q({\bf{x}})),y)LλhKR(f1,⋯,fq)=k=1∑q[Ex∼¬Pk[fk(x)]−Ex∼Pk[fk(x)]]+λEx,yk=1⋃qPk(H(f1(x),⋯,fq(x)),y)其中H(f1(x),⋯ ,fq(x))=∑k=1qm−(2∗Iy=k−1)∗fk(x)H(f_1({\bf{x}}),\cdots,f_q({\bf{x}}))=\sum\limits_{k=1}^q m-(2 *\mathbb{I}_{y=k}-1)*f_k({\bf{x}})H(f1(x),⋯,fq(x))=k=1∑qm−(2∗Iy=k−1)∗fk(x)以上公式主要有三个缺点:其一是每个类的最佳边距可能不同,导致会有大量超参数需要被调参;其二是对于大量类中样本分布不平衡可能会导致模型收敛速度缓慢;其三是fy(x)f_{\bf{y}}({\bf{x}})fy(x)(真实类别的函数)相对于其他类别的权重随着类别数量的增加而降低。 为了克服这些缺点,作者提出了一种基于softmax\mathrm{softmax}softmax的hinge\mathrm{hinge}hinge正则化损失函数:Hsoftα(f1(x),⋯ ,fq(x))=my−12fy(x)+12∑k≠yfk(x)∗efk(x)∑j≠yefj(x)+αmyH^\alpha_{\mathrm{soft}}(f_1({\bf{x}}),\cdots,f_q({\bf{x}}))=m_y-\frac{1}{2}f_y({\bf{x}})+\frac{1}{2}\sum\limits_{k\ne y}f_k({\bf{x}})*\frac{e^{f_k({\bf{x}})}}{\sum\limits_{j\ne y}e^{f_j({\bf{x}})}}+\alpha m_yHsoftα(f1(x),⋯,fq(x))=my−21fy(x)+21k=y∑fk(x)∗j=y∑efj(x)efk(x)+αmy其中my≥0m_y \ge 0my≥0,对于真实的类别,fy(x)f_{\bf{y}}({\bf{x}})fy(x)和其它函数总是有相同的权重。在学习的初期阶段,因为fkf_kfk的取值是平均的;在训练的过程中,fkf_kfk的值会逐渐不同,直至某个分量出现最大值并稳定。
4 实验结果
作者使用插入和删除指标评估最优传输神经网络的显著图解释的质量。在CelebA\mathrm{CelebA}CelebA和FashionMNIST\mathrm{FashionMNIST}FashionMNIST数据集上针对两种类型的网络评估经典解释方法。下表显示在显著图方法在最优传输神经网络上的指标上变得具有竞争力并且提供了更加可靠的解释性。
下表评估了不同数据集在最优传输网络上两个指标L2L_2L2和Spearman\mathrm{Spearman}Spearman等级相关系数ρ\rhoρ。最优传输网络上解释距离远低于无约束的解释距离,并且非常接近于000。
下图为定性可视化结果,可以直观的发现说明了在最优神经网络中提供了更好更清晰的解释性。
从下表定量结果可以直观的发现,通过所有这些实验得出结论,使用多种类型的解释指标,最优传输神经网络的可解释性优于无约束的神经网络。
下面两张图分别在CelebA\mathrm{CelebA}CelebA和FashionMNIST\mathrm{FashionMNIST}FashionMNIST数据集上学习到的最优传输网络,下面两张图显示了原始图像,通道上的平均梯度∇xfj\nabla_x f_j∇xfj,以及有传输方案方向的图像。可以直观的发现,大多数梯度在视觉上都是一致的。

5 附录证明
关于损失函数Lλ,mhKR\mathcal{L}_{\lambda,m}^{hKR}Lλ,mhKR的最优传输问题如下所示inff∈Lip1(Ω)Lλ(f),mhKR=infπ∈Πλp(P+,P−)∫Ω×Ω∣x−z∣dπ+πz(Ω)−1\inf\limits_{f\in \mathrm{Lip}_1(\Omega)} \mathcal{L}_{\lambda(f),m}^{hKR}=\inf\limits_{\pi \in \Pi_\lambda^p(P_+,P_-)}\int_{\Omega \times \Omega}|{\bf{x}}-{\bf{z}}|d\pi +\pi_{{\bf{z}}}(\Omega)-1f∈Lip1(Ω)infLλ(f),mhKR=π∈Πλp(P+,P−)inf∫Ω×Ω∣x−z∣dπ+πz(Ω)−1其中Πλp(P+,P−)\Pi^p_{\lambda}(P_+,P_-)Πλp(P+,P−)表示包含关于联合测度dP+×dP−d P_+\times dP_-dP+×dP−,dπxdP+∈[p,p(m+λ)]\frac{d \pi_{\bf{x}}}{d P_+}\in[p,p(m+\lambda)]dP+dπx∈[p,p(m+λ)]和dπzdP−∈[1−p,(1−p)(m+λ)]\frac{d \pi_{{\bf{z}}}}{d P_-}\in[1-p,(1-p)(m+\lambda)]dP−dπz∈[1−p,(1−p)(m+λ)]的正测度π∈M+(Ω×Ω)\pi\in \mathcal{M}_{+}(\Omega\times \Omega)π∈M+(Ω×Ω)的集合,π∗\pi^*π∗是最优传输方案,f∗f^*f∗是相应的势函数。
命题1证明: 已知有∥∇xf∗(x)∥=1\|\nabla_x f^*({\bf{x}})\|=1∥∇xf∗(x)∥=1几乎处处成立,并且有P(x,y)∼π∗(∣f∗(x)−f∗(y)∣=∥x−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim \pi^*}(|f^*({\bf{x}})-f^*({\bf{y}})|=\|{\bf{x}}-{\bf{y}}\|)=1P(x,y)∼π∗(∣f∗(x)−f∗(y)∣=∥x−y∥)=1给定xα=α∗x+(1−α)y, 0≤α≤1{\bf{x}}_\alpha=\alpha * x+(1-\alpha){\bf{y}},\text{ }0\le \alpha \le 1xα=α∗x+(1−α)y, 0≤α≤1有P(x,y)∼π∗(∇xf∗(xα)=xα−y∥xα−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim\pi^*}\left(\nabla_x f^*({\bf{x}}_\alpha)=\frac{{\bf{x}}_\alpha - {\bf{y}}}{\|{\bf{x}}_\alpha -{\bf{y}}\|}\right)=1P(x,y)∼π∗(∇xf∗(xα)=∥xα−y∥xα−y)=1当α=1\alpha=1α=1时,则有P(x,y)∼π∗(∇xf∗(x)=x−y∥x−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim\pi^*}\left(\nabla_x f^*({\bf{x}})=\frac{{\bf{x}} - {\bf{y}}}{\|{\bf{x}} -{\bf{y}}\|}\right)=1P(x,y)∼π∗(∇xf∗(x)=∥x−y∥x−y)=1进而则有
P(x,y)∼π∗(y=x−∇xf∗(x)∥x−y∥)=1\mathbb{P}_{({\bf{x}},{\bf{y}})\sim \pi^*}({\bf{y}}={\bf{x}}-\nabla_x f^*({\bf{x}}) \|{\bf{x}}-{\bf{y}}\|)=1P(x,y)∼π∗(y=x−∇xf∗(x)∥x−y∥)=1所以当选择t=∥x−y∥t=\|{\bf{x}}-{\bf{y}}\|t=∥x−y∥时,命题1证明成立。
命题2证明: 令P+P_+P+和P−P_-P−是两个可分离的分布,有最小距离ϵ\epsilonϵ和最小化损失函数Lλ,mhKR\mathcal{L}^{hKR}_{\lambda,m}Lλ,mhKR的最优解,其中m<2ϵm<2 \epsilonm<2ϵ。∀x∈P+\forall {\bf{x}}\in P_+∀x∈P+,f∗(x)≥0f^*({\bf{x}})\ge 0f∗(x)≥0和∀y∈P−\forall {\bf{y}}\in P_-∀y∈P−,f∗(y)≤0f^*({\bf{y}})\le 0f∗(y)≤0。给定x∈P+{\bf{x}}\in P_+x∈P+和y=tr(x)=x−t∇xf∗(x){\bf{y}}=\mathrm{tr}({\bf{x}})={\bf{x}}-t \nabla_x f^*({\bf{x}})y=tr(x)=x−t∇xf∗(x)和y∈P−{\bf{y}}\in P_-y∈P−,根据命题1可知∣f∗(x)−f∗(y)∣=∥x−y∥∣f∗(x)−f∗(y)∣=∥x−(x−t∇xf∗(x))∥∣f∗(x)−f∗(y)∣=∥t∇xf∗(x)∥∣f∗(x)−f∗(y)∣=t∥∇xf∗(x)∥f∗(x)−f∗(y)=tf∗(y)=f∗(x)−t\begin{aligned}|f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=\|{\bf{x}}-{\bf{y}}\|\\|f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=\|{\bf{x}}-({\bf{x}}-t\nabla_x f^*({\bf{x}}))\|\\ |f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=\|t \nabla_x f^*({\bf{x}})\|\\ |f^{*}({\bf{x}})-f^{*}({\bf{y}})|&=t \|\nabla_x f^*({\bf{x}})\|\\ f^{*}({\bf{x}})-f^{*}({\bf{y}})&= t\\ f^*({\bf{y}})&=f^*({\bf{x}})-t\end{aligned}∣f∗(x)−f∗(y)∣∣f∗(x)−f∗(y)∣∣f∗(x)−f∗(y)∣∣f∗(x)−f∗(y)∣f∗(x)−f∗(y)f∗(y)=∥x−y∥=∥x−(x−t∇xf∗(x))∥=∥t∇xf∗(x)∥=t∥∇xf∗(x)∥=t=f∗(x)−t其中t≥0t\ge 0t≥0,∇xf∗(x)=1\nabla_x f^*({\bf{x}})=1∇xf∗(x)=1,f∗(x)≥0f^*({\bf{x}})\ge 0f∗(x)≥0,f∗(y)≤0f^*({\bf{y}})\le 0f∗(y)≤0。 当f∗(y)≤0f^*({\bf{y}})\le 0f∗(y)≤0时,则有f∗(x)≤tf^*({\bf{x}})\le tf∗(x)≤t因为f∗f^*f∗是连续的,∃t′>0\exists t^{\prime}>0∃t′>0,xδ=x−t′∇xf∗(x){\bf{x}}_\delta={\bf{x}}-t^{\prime}\nabla_x f^*({\bf{x}})xδ=x−t′∇xf∗(x)和f∗(x)f^*({\bf{x}})f∗(x),则有∣f∗(x)−f∗(xδ)∣≤∥x−xδ∥f∗(x)≤∥x−(x−t′∇xf∗(x))∥f∗(x)≤t′\begin{aligned}|f^*({\bf{x}})-f^*({\bf{x}}_\delta)|&\le\|{\bf{x}}-{\bf{x}}_\delta\|\\f^{*}({\bf{x}})&\le \|{\bf{x}}-({\bf{x}}-t^{\prime}\nabla_x f^*({\bf{x}}))\|\\ f^*({\bf{x}})&\le t^{\prime}\end{aligned}∣f∗(x)−f∗(xδ)∣f∗(x)f∗(x)≤∥x−xδ∥≤∥x−(x−t′∇xf∗(x))∥≤t′和∣f∗(xδ)−f∗(y)∣≤∥xδ−y∥−f∗(y)≤∥(x−t′∇xf∗(x))−(x−t∇xf∗(x))∥−f∗(y)≤t−t′−f∗(y)≤∥x−y∥−t′\begin{aligned}|f^*({\bf{x}}_\delta)-f^*({\bf{y}})|&\le \|{\bf{x}}_\delta -{\bf{y}}\|\\ -f^*({\bf{y}})&\le \|({\bf{x}}-t^{\prime}\nabla_x f^*({\bf{x}}))-({\bf{x}}-t \nabla_x f^*({\bf{x}}))\|\\ -f^*({\bf{y}})&\le t - t^\prime \\ -f^*({\bf{y}})& \le \|{\bf{x}}-{\bf{y}}\|-t^{\prime}\end{aligned}∣f∗(xδ)−f∗(y)∣−f∗(y)−f∗(y)−f∗(y)≤∥xδ−y∥≤∥(x−t′∇xf∗(x))−(x−t∇xf∗(x))∥≤t−t′≤∥x−y∥−t′如果f∗(x)<t′f^*({\bf{x}})<t^{\prime}f∗(x)<t′,则有f∗(x)−f∗(y)≤t′+∥x−y∥−t′f∗(x)−f∗(y)<∥x−y∥\begin{aligned}f^*({\bf{x}})-f^*({\bf{y}})&\le t^{\prime}+\|{\bf{x}}-{\bf{y}}\|-t^{\prime}\\ f^*({\bf{x}})-f^*({\bf{y}})&< \|{\bf{x}}-{\bf{y}}\|\end{aligned}f∗(x)−f∗(y)f∗(x)−f∗(y)≤t′+∥x−y∥−t′<∥x−y∥此时出现矛盾,所以则有f∗(x)=tf^*({\bf{x}})=tf∗(x)=t和xδ=x−f∗(x)∇xf∗(x){\bf{x}}_\delta={\bf{x}}-f^*({\bf{x}})\nabla_x f^*({\bf{x}})xδ=x−f∗(x)∇xf∗(x)。
生词总结
论文中出现的生词 | |
proposition: 命题 | minimizer:最小化 |
deterministic:确定性 | counterfactual:反事实 |
automatic: 自动的 | margin:空隙 |
separable:可分离的 | deletion: 删除 |