频域模型增强的对抗攻击方法
立即解锁
发布时间: 2025-09-16 00:28:17 阅读量: 4 订阅数: 19 AIGC 


计算机视觉前沿进展
### 频域模型增强的对抗攻击方法
#### 1. 引言
近年来,深度神经网络(DNNs)在计算机视觉领域取得了巨大成功,如图像分类、人脸识别和自动驾驶等。然而,神经网络的稳定性仍存在诸多问题。先前的研究表明,只需在干净图像上添加人类难以察觉的扰动,生成的对抗样本就能轻易欺骗先进的DNNs。因此,为了提高DNNs的鲁棒性,有必要生成尽可能覆盖DNN盲点的对抗样本。
对抗攻击的设置通常分为白盒攻击和黑盒攻击。白盒攻击中,攻击者可以获取模型的架构和参数等信息,通过受害者模型的梯度直接生成对抗样本,成功率较高。但在实际应用中,白盒攻击往往不可行,因为攻击者很难获取受害者模型的所有信息。黑盒攻击则依赖对抗样本的跨模型可迁移性,攻击者通过替代模型生成对抗样本,然后将其迁移到受害者模型进行攻击。
然而,替代模型和受害者模型之间通常存在较大差距,导致对抗样本的可迁移性较低。虽然同时攻击多个不同的模型可以提高可迁移性,但收集大量不同的模型既困难又耗时。为了解决这个问题,人们提出了模型增强方法,通过对输入图像进行损失保持变换来模拟不同的模型。但现有的空间域变换无法产生显著不同的增强模型。
为了更好地揭示模型之间的差异,我们从频域的角度引入了频谱显著性图。不同模型在决策时通常依赖输入图像的不同频率分量,因此频谱显著性图可以作为反映特定模型的指标。基于此,我们提出了一种基于离散余弦变换(DCT)和逆离散余弦变换(IDCT)的频谱变换方法,以生成更多样化的频谱显著性图,从而模拟更丰富的替代模型,缩小替代模型与受害者模型之间的差距。
我们的主要贡献如下:
1. 发现空间域变换得到的增强模型差异不显著,可能限制对抗样本的可迁移性。
2. 引入频谱显著性图来研究模型之间的差异,并提出了一种新的频谱模拟攻击方法,有效缩小了替代模型和受害者模型之间的差距。
3. 在ImageNet数据集上的大量实验证明了我们方法的有效性,与最先进的基于迁移的攻击方法相比,我们的方法将正常训练模型的攻击成功率提高了6.3% - 12.2%,将防御模型的攻击成功率提高了5.6% - 23.1%。
#### 2. 相关工作
##### 2.1 对抗攻击
自Szegedy等人发现对抗样本的存在以来,人们提出了各种攻击算法来研究DNNs的脆弱性。其中,基于FGSM的黑盒攻击是最有效的攻击方法之一,它利用对抗样本的可迁移性进行攻击。
为了提高对抗样本的可迁移性,研究人员采取了多种策略。例如,Dong等人在I - FGSM的每次迭代中引入动量项来稳定更新方向;Lin等人将Nesterov加速梯度应用于迭代攻击中;Gao等人提出了逐块扰动的方法。此外,模型增强也是一种有效的策略,如Xie等人引入随机变换,Dong等人通过平移输入图像来估计整体梯度,Lin等人利用DNNs的尺度不变性平均不同尺度图像的梯度等。
##### 2.2 基于频率的分析和攻击
一些研究从频域的角度分析DNNs。Wang等人发现DNNs能够捕捉人类几乎察觉不到的高频分量;Dong等人发现自然训练的模型对高频加性扰动高度敏感,而高斯数据增强和对抗训练可以显著提高对高频噪声的鲁棒性。
也有一些基于频域的对抗攻击方法。Guo等人提出了仅利用图像低频分量的LF攻击;Sharma等人证明了基于对抗训练的防御模型对高频扰动不太敏感,但仍容易受到低频扰动的影响;Duan等人提出了AdvDrop攻击,通过在频域中去除干净图像的现有细节来生成对抗样本。与这些方法不同,我们的方法旨在通过频域分析缩小模型之间的差距。
##### 2.3 对抗防御
为了减轻对抗样本的威胁,近年来提出了许多对抗防御技术。其中,对抗训练是一种流行且有前景的方法,它在训练阶段利用对抗样本来增强训练数据。Tramèr等人引入了集成对抗训练,将对抗样本的生成与被训练的模型解耦,以提高模型对黑盒攻击的鲁棒性;Xie等人在网络中注入可以对中间特征进行去噪的模块,并在对抗样本上进行端到端训练。
然而,对抗训练存在训练成本高的问题,不适合大规模数据集和复杂的DNNs。因此,许多工作尝试在将输入数据输入DNNs之前对其进行处理,以消除对抗扰动的影响。例如,Guo等人利用多种输入变换(如JPEG压缩、总方差最小化和图像拼接)来恢复对抗扰动;Liao等人提出了高级表示引导去噪器(HGD);Xie等人通过随机调整大小和填充(R&P)来减轻对抗效果;Cohen等人利用带有高斯数据增强的分类器创建了一个可证明鲁棒的分类器。
此外,研究人员还尝试将对抗训练和输入预处理方法结合起来,进一步提高DNNs的鲁棒性。例如,NeurIPS - r3解决方案提出了一个两步过程,先对图像进行一系列变换,然后将输出通过一组对抗训练的模型进行整体预测;Naseer等人设计了一个神经表示净化器(NRP)模型,用于学习清理对抗扰动的图像。
#### 3. 方法
##### 3.1 预备知识
形式上,设$f_θ : x → y$表示一个分类
0
0
复制全文
相关推荐





