自学内容网 自学内容网

【自通用性】Enhancing the Self-Universality for Transferable Targeted Attacks

原文标题: Enhancing the Self-Universality for Transferable Targeted Attacks
原文代码: https://github.com/zhipeng-wei/Self-Universality
发布年度: 2023
发布期刊: CVPR


摘要

In this paper, we propose a novel transfer-based targeted attack method that optimizes the adversarial perturbations without any extra training efforts for auxiliary networks on training data. Our new attack method is proposed based on the observation that highly universal adversarial perturbations tend to be more transferable for targeted attacks. Therefore, we propose to make the perturbation to be agnostic to different local regions within one image, which we called as self-universality. Instead of optimizing the perturbations on different images, optimizing on different regions to achieve self-universality can get rid of using extra data. Specifically, we introduce a feature similarity loss that encourages the learned perturbations to be universal by maximizing the feature similarity between adversarial perturbed global images and randomly cropped local regions. With the feature similarity loss, our method makes the features from adversarial perturbations to be more dominant than that of benign images, hence improving targeted transferability. We name the proposed attack method as Self-Universality (SU) attack. Extensive experiments demonstrate that SU can achieve high success rates for transfer-based targeted attacks. On ImageNet-compatible dataset, SU yields an improvement of 12% compared with existing state-of-the-art methods.


背景

与非定向攻击相比,基于传输的定向攻击本质上更具挑战性,因为其目标是欺骗深度模型来预测特定的目标类别。基于转移的目标攻击的主要困难是由于不同的 DNN 之间从源图像到目标类的梯度方向通常不同。因此,旨在进行非定向攻击的基于转移的攻击方法通常在定向攻击中效果不佳。为了提高转移性,以往的研究致力于将生成的对抗样本的特征与目标类别的特征分布对齐,这些特征分布是通过特定类别的辅助网络或生成对抗网络学习得到的。然而,这些方法假设训练数据集是可用的,并且需要为辅助网络进行额外的训练,这使得它们在实际场景中难以应用。

创新点

本文研究了基于转移的定向攻击问题。我们提出了一种新方法,以更高效的方式提高对抗样本的转移性,即无需为辅助网络训练以学习目标类别的特征分布。我们的方法基于一个观察结果:更普遍的扰动在定向攻击中能够带来更高的攻击成功率。为此,我们的目标是增强生成的对抗扰动的普遍性,从而提高其定向转移性。值得注意的是,现有的通用对抗扰动(UAP)攻击需要在大量图像上优化扰动以实现普遍性,这在我们的设置中并不适用。为了摆脱使用额外数据,并使基于转移的定向攻击像非定向攻击一样方便,我们提出让扰动与同一图像中的不同局部区域无关,我们称之为自普遍性。因此,我们的方法转而优化对抗扰动的自普遍性。具体来说,除了分类损失外,我们的自普遍性(SU)攻击方法还引入了一个特征相似性损失,该损失通过最大化对抗扰动的全局图像与随机裁剪的局部区域之间的特征相似性来实现自普遍性。通过这种方式,我们的方法使对抗扰动的特征比正常图像的特征更具优势,从而提高定向转移性。

图1概述了提出的自普遍性(SU)攻击。SU首先对正常图像进行随机裁剪以获得局部裁剪的图像块,然后将这些局部图像块调整到与正常图像相同的大小。因此,带有共享扰动的全局和局部输入被输入到白盒模型中。最后,通过最小化输入与目标类别之间的分类损失(例如,交叉熵)和最大化局部与全局输入之间的对抗中间特征的特征相似性损失(例如,余弦相似性),对抗扰动得以更新。受益于满足全局和局部输入之间的目标类别预测,并逼近两者之间的对抗中间特征,提出的SU攻击能够生成具有自普遍性的扰动,从而提高跨模型的定向转移性。

模型

  • 符号说明
    令 f 代表白盒代理模型,v 为黑盒受害者模型,x ∈X ⊂RH×W ×C 为具有真实标签的良性图像 y ∈Y= {1, 2, … ,K},其中f和v使用相同的训练数据集进行训练,H,W,C分别表示高度,宽度和通道数,K是类别数。我们使用 f (x),v(x) 作为对类 Y 集合的预测。给定指定的目标类 yt,有针对性的可转移攻击旨在从满足 v( xadv)=yt.继之前的工作之后,我们对扰动施加 L∞ 范数约束,可以表示为 ||xadv − x||∞ = ||δ||∞ ≤ ,其中 δ 是扰动,表示范数约束的常数。给定 f 的分类损失 J(例如 CE 损失),I-FGSM 的目标攻击可以表示为:
    在这里插入图片描述
    其中 δi, gi 表示第 i 次迭代的对抗性扰动和梯度,i =[0, …, I − 1],I 是最大迭代次数; α为步长;函数 Clipx, (·) 将 δ 投影到 x 附近以满足 L∞-范数约束。具体地,I-FGSM首先将δ0和g0初始化为0(方程1)。然后,它计算损失函数相对于扰动的梯度(方程 2),并通过最小化 J(f (x + δi),yt) 将对抗性示例上的 f 预测推向目标类别(方程 2)。 3)。最后,它用 L∞-范数约束(方程 4)来限制对抗性扰动。交替执行式2、3、4,直至达到最大迭代次数。
  • 具体方法

在这里插入图片描述

  • 定向攻击的通用性

可转移的定向攻击旨在生成跨模型的扰动,使不同模型的预测趋向于相同的指定类别。这需要从一个白盒模型生成的扰动对不同模型是通用的,即对不同模型不敏感。一个简单的方法是对大量模型进行扰动优化。然而,在现实世界中,这可能不切实际,因为白盒模型的数量通常有限。相比之下,定向通用对抗扰动(UAP)可以对几乎所有图像导致深度神经网络(DNNs)产生特定的预测结果yt。研究[34]将这种现象归因于定向UAP产生的主导特征。具体而言,假设δu表示定向UAP,他们得出结论认为,δu的预测logit向量与x + δu的线性相关性更高,而x与x + δu之间的线性相关性较低。这表明,δu的特征代表了特定目标类别的特征分布,并主导了DNNs的预测。因此,定向UAP可以转移攻击在相同数据集上训练的其他模型,因为这些模型共享相似的目标类别特征分布。总之,普遍性可能与定向攻击中的可转移性相关。基于上述分析的启发,我们从普遍性的角度深入研究了I-FGSM和DTMI生成的扰动之间的差异。

为了进一步验证上述分析的发现,我们通过实验展示了普遍性与定向可转移性之间的相关性。我们使用DenseNet121作为白盒模型,通过I-FGSM和DTMI在ImageNet兼容数据集上优化定向扰动(数据集详细信息见第4.1节)。这里,CE损失被用作分类损失。给定一组正常图像Φ={x1, …, xm, …, xM},我们为集合中的每个图像生成扰动。记δm为为xm生成的扰动。为了评估δm的普遍性,我们将δm添加到除xm以外的所有正常图像中,并计算在DenseNet121上成功的定向攻击数量。
在这里插入图片描述
图 2a 显示了 I-FGSM 和 DTMI 制作的每个扰动之间的普遍性比较。为了更好的可视化,我们根据 I-FGSM 中报告的扰动的普遍性按降序对扰动进行排序。值得注意的是,对于每个扰动,DTMI 都比 I-FGSM 具有更高的通用性。这是因为,在 DI 提供的不同输入模式的帮助下,DTMI 使得扰动对于这些输入模式是通用的。由于DTMI比I-FGSM[36]实现了更好的定向可转移性,因此我们基本上可以得出这样的结论:通用性和定向可转移性之间存在相对正相关关系。

为了深入了解目标扰动如何影响图像特征,我们比较了良性图像和通过向这些良性图像添加一个特定目标扰动生成的对抗性图像之间的中间特征的平均余弦相似度。具体来说,这些良性图像可以用Φm表示,它是满足f(xj+δm)=yt的xj的集合。对抗性图像可以用 {xj + δm} 表示,其中 xj ∈ Φm。图2b显示了添加相同扰动δm后特征相似度的变化。可以观察到,添加这个扰动后,图像特征变得更加相似。这是因为目标扰动将不同良性图像的特征驱动到目标类的特征分布。换句话说,与良性图像相比,有针对性的扰动会产生更多的主导特征。此外,从图2b中我们还可以发现,与I-FGSM相比,DTMI生成的针对性扰动使图像特征更加相似。由于DTMI比I-FGSM具有更好的定向可传递性,因此结果基本上表明,具有高定向可传递性的扰动将产生更多的主导特征并具有更高的普适性。上述分析表明,具有高普适性的对抗样本在针对性攻击中往往更容易转移。

  • 自通用性攻击

为了增强可转移目标攻击的对抗性扰动的普遍性,我们提出了 SelfUniversality (SU) 攻击方法。本文 SU 方法不是优化不同图像上的扰动以实现普适性,而是优化扰动以使其与一幅图像内的不同局部区域无关,这称为自通用性。通过这种方式,本文的方法能够在不需要额外数据的情况下生成通用扰动。

  1. 局部图像处理

    通过将一幅图像中随机裁剪的局部区域合并到迭代攻击中来产生扰动。为了创建局部输入模式,使用随机裁剪,即通过尺度参数 s = {sl,sint} 将图像裁剪为局部图像块。其中 sl 表示随机裁剪图像区域的下限,sint 是下限和上限之间的间隔值,因此 sl + sint 是上限。

裁剪图像后,将其大小调整为与良性图像相同的形状。令 Loc(x, s) 为随机裁剪和调整大小操作。

2.feature similarity loss

本文提出了一种特征相似性损失,以最大化对抗性全局和局部输入之间的中间特征的余弦相似性。在这种设计下,SU 可以产生具有更多主导特征的扰动。该损失可以由 CS(fl(x+δi),fl(Loc(x, s)+δi)) 表示,其中 fl(·) 表示从白盒模型 f 的第 l 层提取特征,函数 CS(·,·) 计算对抗性全局输入和局部输入之间的特征的余弦相似度得分。因此, SU 将方程 2 替换为:

这样,SU的扰动优化可以提高扰动的自通用性,而余弦相似度的最大化可以对齐对抗性全局和局部输入之间的中间特征,从而提高扰动特征表示的优势。最后,SU 可以通过合并局部图像来生成具有高主导特征的对抗性扰动。

实验

  1. 性能比较

    • 单模型可转移攻击

    我们进行单模型可迁移实验,选择一个模型作为白盒模型来攻击其他三个黑盒模型。结果如表2所示。

    第一,SU方法在大量迭代之后制作的样本实现了更高的 TASR。并且不限损失函数。

    第二,使用 ResNet50 和 DenseNet121 作为白盒模型的攻击优于使用 VGGNet16 和 Inception-v3 的攻击。这可能是由跳跃连接结构引起的,它减轻了大量迭代中的梯度消失/爆炸问题,并通过在残差模块和跳跃连接上反向传播梯度来强调较低层的特征。这些特征往往会在不同模型之间转移。

    第三,当使用少量迭代时(例如 I = 20),SU 的性能比其他方法差。这是因为 SU 需要大量迭代才能收敛。

    • 集成模型可转移攻击

    这里选择一个黑盒模型进行攻击,并使用其他三个模型作为白盒模型,并分配相同的权重。结果如表3所示。

    可以看出,与单模型可转移攻击相比,集成攻击取得了更好的性能。此外,所提出的 SU 进一步提高了跨模型的目标可迁移性。

    • 与现有方法的结合

    将我们的方法与其他攻击相结合。表 4 报告了结果。与所提出的 SU 相结合的攻击方法比其他攻击方法取得了更好的性能。在计算效率方面,SU每次迭代只需要全局和局部输入两次前向传播,低于SI、Admix和EMI(需要≥5次前向传播)。为了将 SU 与 ODI 进行比较,我们报告了生成对抗性示例所需的计算时间(秒)。 DTMISU 和 DTMI-ODI 分别需要 2.3 和 2.6 秒。这表明 SU 比以前的方法需要更少的计算时间。

  2. 消融实验

    • 成分的影响。

    将 SU 分为本地输入和特征相似性损失。表 5 显示了不同组件组合的结果。可以看出,这两个组件都提高了目标可转移性。

    • 超参数的影响

    比例参数 s 确定裁剪图像的区域。当面积较大时,SU 会忽略输入的局部结构。因此,研究s的最佳值至关重要。我们观察到裁剪图像的面积越小,性能越高。它表明与原始图像显着不同的局部图像块为扰动优化提供了更多样化的输入模式,并有助于有针对性的可转移性。另外,当sl=0.1、sint=0.1时,达到最优结果。然而,相对于原始图像的面积可能会在[0.1,0.2]内波动。为了保持稳定,我们使用参数 s =(0.1, 0.0) 来进行后续实验。

    图 4b 显示了对不同层和 λ 执行攻击的结果。第 3 层提取特征优于其他层。这是因为浅层捕获的特征代表低级模式(例如边缘),而最深层包含更多语义信息,因此与白盒模型的分类任务更相关。对于加权参数 λ,我们设置 λ ∈ [10−4, 10−3, 10−2, 10−1, 100]。当 λ =10−3 时,SU 达到最好的结果。

    • 不同地区的影响

    随机裁剪的区域决定了局部图像的分布。中心可能比角点与图像的对象更相关。因此,我们对中心、角落和整个区域进行了实验。我们还比较了局部图像的均匀分布 U(0, 1)。如表6所示,中心和角落之间没有显着的性能差异。原因是 SU 专注于目标类,而不考虑与原始类相关的对象。因此,直接在一幅图像中提供更多本地输入模式可以在 SU 中带来更好的性能。整个地区确实取得了最好的表现。而且,均匀分布导致难以收敛,导致性能最差。

结论


原文地址:https://blog.csdn.net/nbwjszd/article/details/141685464

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!