基于双重引导的目标对抗攻击方法

doi:10.3785/j.issn.1008-973X.2026.01.008

基于双重引导的目标对抗攻击方法

孙月^,, 张兴兰^,

北京工业大学计算机学院，北京 100124

Targeted adversarial attack method based on dual guidance

SUN Yue^,, ZHANG Xinglan^,

School of Computer Science, Beijing University of Technology, Beijing 100124, China

通讯作者: 张兴兰，女，教授. orcid.org/0000-0002-0889-5377. E-mail：zhangxinglan@bjut.edu.cn

收稿日期: 2025-02-20

基金资助:

国家自然科学基金资助项目（62202017）.

Received: 2025-02-20

Fund supported:

国家自然科学基金资助项目（62202017）.

作者简介 About authors

孙月（2000—），女，硕士生，从事深度学习安全研究.orcid.org/0009-0001-5046-4087.E-mail：sunyues2022@emails.bjut.edu.cn , E-mail：sunyues2022@emails.bjut.edu.cn

摘要

为了提升目标对抗样本的迁移性能，提出基于目标类别印象和正则化对抗样本双重引导的生成式对抗攻击方法. 利用UNet模型的跳跃连接机制生成浅层特征的对抗扰动，增强对抗样本的攻击性. 将目标类别的类印象图和标签作为输入，引导生成器生成含有目标类别特征的对抗扰动，提高目标攻击成功率. 在训练阶段对生成的对抗扰动使用Dropout技术，降低生成器对替代模型的依赖，以提升对抗样本的泛化性能. 实验结果表明，在MNIST、CIFAR10以及SVHN数据集上，所提方法生成的对抗样本在ResNet18、DenseNet等分类模型上均有较好的目标迁移攻击效果，平均黑盒目标攻击成功率比基准攻击方法MIM提高了1.6%以上，说明所提方法生成的对抗样本可以更有效地评估深度模型的鲁棒性.

关键词： 深度学习 ; 对抗攻击 ; 对抗样本 ; 黑盒攻击 ; 目标攻击

Abstract

A generative adversarial attack method based on dual guidance of target class impressions and regularized adversarial examples was proposed to enhance the transferability of targeted adversarial samples. The adversarial perturbations of shallow features were generated by leveraging the skip-connection mechanism of the UNet model to improve the attack effectiveness of the adversarial samples. To improve the targeted attack success rate, the generator was guided to generate adversarial perturbations containing the features of target classes using the impression images and labels of target classes as input. The Dropout technique was employed on the generated adversarial perturbations in the training phase to reduce the dependence of the generator on surrogate models, thereby improving the generalization performance of the adversarial samples. Experimental results demonstrated that the adversarial samples generated by the proposed method exhibited significant targeted transferability on the MNIST, CIFAR10, and SVHN datasets when attacking classification models such as ResNet18 and DenseNet. The average black-box targeted attack success rate was improved by more than 1.6% compared with that of the benchmark attack method MIM, demonstrating that the adversarial samples generated by the proposed method could evaluate the robustness of the deep models more effectively.

Keywords： deep learning ; adversarial attack ; adversarial example ; black-box attack ; targeted attack

PDF (2259KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

孙月, 张兴兰. 基于双重引导的目标对抗攻击方法. 浙江大学学报(工学版)[J], 2026, 60(1): 81-89 doi:10.3785/j.issn.1008-973X.2026.01.008

SUN Yue, ZHANG Xinglan. Targeted adversarial attack method based on dual guidance. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(1): 81-89 doi:10.3785/j.issn.1008-973X.2026.01.008

深度学习模型因强大的特征提取能力在图像分类^[1]、目标检测^[2]、自动驾驶^[3]和自然语言处理^[4]等领域获得了巨大的成功，但是也存在许多潜在的安全问题^[5]. Szegedy等^[6]发现在原始样本中添加微小、精心设计的扰动会使分类模型在分类时出错. 研究者们将这种扰动称为对抗扰动，将加入了扰动的原始样本称为对抗样本. 对抗样本问题在深度模型中普遍存在，因此研究对抗样本可以扩展对深度学习的理解，通过对抗样本攻击能够评估并提高深度学习模型的鲁棒性和泛化性能.

根据攻击者对待攻击模型的掌握程度，可以将目标对抗攻击分为白盒攻击和黑盒攻击2类. 相较于白盒攻击，黑盒攻击更符合实际生产生活中的攻击环境. 因此，研究人员提出各种方法来提高对抗样本的黑盒攻击效果. 一种是查询攻击^[7]，通常需要多次查询目标模型的输出来生成对抗样本. 防御此类攻击的方法较为简单，可以通过限制查询次数来阻止攻击者对分类模型的无限次查询，降低对抗样本的攻击性. 另一类是迁移攻击^[8]，此类黑盒攻击利用了对抗样本的跨模型可迁移性. 攻击者利用已知结构和参数的替代模型生成对抗样本，以高概率欺骗被攻击的黑盒模型. 与查询攻击相比，迁移攻击利用的是模型间的相似性，防御难度更高，所以通常研究迁移攻击方法来提升黑盒攻击效果.

为了提高对抗样本的迁移性能，研究者从多个角度展开研究，包括优化梯度更新方向^[9-13]、数据增强^[14-15]、图像频域^[16-17]、优化损失函数^[18]、集成攻击^[19]等，并提出多种方法. Lin等^[20]利用Nesterov加速梯度算法的前瞻性来提高对抗样本的可迁移性. Xie等^[21]以一定概率对输入图像进行缩放和填充操作，然后将其输入分类器，并进行后续的求导过程. Qian等^[22]将原始图像与随机采样的其他类别图像进行频域混合，以生成多样化的输出. Zhao等^[23]发现目标攻击的迁移性难以实现的主要原因在于攻击优化被不合理地限制在过少的迭代次数内，在增加迭代次数后，目标攻击的迁移性得到了显著提升. 同时，与使用交叉熵损失相比，使用Logit损失可以获得更大的梯度和更高的迁移性. Wu等^[24]利用多个分类模型来生成对抗样本，降低样本对单个模型的依赖性. 注意到对抗样本迁移性与神经网络泛化能力之间的相似性，颜景坤^[25]在迭代更新过程中使用Dropout方法，对部分扰动值随机置零，以提升对抗样本的泛化性能.

综上所述，目前对目标攻击的研究还不够充分，采用的攻击方法大多依赖于样本的梯度信息，单次攻击耗时较长. 而生成式攻击框架不需要了解分类模型的内部知识，在推理阶段可以极快地生成对抗样本. 因此，为了提高黑盒目标攻击方法的性能，基于生成式攻击框架，提出基于双重引导的生成式目标对抗攻击方法. 将目标攻击类别的类印象图与原始样本一同输入生成器，引导生成器生成融合目标类别特征的对抗样本. 与仅利用图像深层特征生成扰动的现有生成攻击方法不同，利用图像的浅层特征生成扰动，缓解传统卷积生成器中浅层特征缺失的问题. 对对抗扰动执行丢弃（dropout）操作，获取正则化扰动，利用正则化对抗样本计算对抗损失，并计算其与非正则化对抗样本的特征相似度损失，引导生成器生成泛化性能更高的对抗样本. 在多个数据集上进行实验，结果表明所提方法具有较高的黑盒目标攻击成功率.

1. 相关工作

1.1. 攻击目标

在图像分类任务中，对于原始样本x与其真实标签y，将原始样本x输入训练完成的分类器M中，可以得到预测标签y_pred，分类过程表示为$ M({\boldsymbol{x}}) \mapsto y_{{\mathrm{pred}}} $. 目标对抗攻击的目标是通过对抗样本生成算法，生成能够使分类器M预测标签为y_tar的对抗样本x_adv，即$M({{\boldsymbol{x}}_{{\text{adv}}}}) = {y_{{\text{tar}}}}$.

(1)$ \left.\begin{array}{l}{\mathrm{argmin}} \;J\left(\boldsymbol{x}_{\mathrm{adv}}, y_{\mathrm{tar}}\right) , \\\text { s.t. }\left\|\boldsymbol{x}_{\mathrm{adv}}-\boldsymbol{x}\right\|_p \leqslant \varepsilon .\end{array}\right\} $

式中：x_adv表示在满足对抗扰动的L_p范数$\leqslant \varepsilon $的条件下，使目标损失J达到最小值的对抗样本.

Xiao等^[26]首次提出基于生成对抗网络（generative adversarial network, GAN）的对抗样本生成方法，利用生成器与判别器之间的博弈训练方式，生成符合原始数据分布的对抗样本. 对该方法而言，目标损失J主要由生成器和判别器之间的判别对抗损失与对抗样本的对抗损失2部分组成. 生成器G负责生成对抗扰动p，判别器D负责辨别对抗样本与原始样本，引导生成器生成符合原始样本数据分布的样本. 判别对抗损失L_GAN为

(2)$ {L_{{\text{GAN}}}}({\boldsymbol{x}},{{\boldsymbol{x}}_{{\text{adv}}}}) = {E_{\boldsymbol{x}}}\ln D\;({\boldsymbol{x}})+{E_{\boldsymbol{x}}}\ln \;(1 - D\;({{\boldsymbol{x}}_{{\text{adv}}}})). $

式中：E_x为原始样本x的期望；D (·) 为判别器D对原始样本或对抗样本的输出.

对抗损失一般由被攻击的分类模型M的输出产生，作用是使对抗样本的分类结果偏向目标标签，计算公式为

(3)$ {L_{{\text{Adv}}}}({{\boldsymbol{x}}_{{\text{adv}}}},{y_{{\text{tar}}}}) = {\mathrm{CE}}\;({f_M}({{\boldsymbol{x}}_{{\text{adv}}}}),{y_{{\text{tar}}}}). $

式中：CE(·)为交叉熵损失函数，f_M为分类模型M的输出结果.

1.2. 类印象

传统通用对抗扰动（universal adversarial perturbation, UAP）的生成方法需要大量数据用于模型训练和扰动生成，而在无数据场景下无法获取相关数据。因此，Mopuri等^[27]提出基于类印象的无数据UAP生成方法. 利用模型在训练过程中留存的有关训练数据的记忆，生成能够使分类模型强烈地认为其属于底层数据分布中某一类别的虚拟样本. 图1为使用模型VGG16^[28]生成的关于数据集CIFAR10^[29]、SVHN^[30]，以及使用经典模型LeNet生成的关于数据集MNIST^[31]中10个类别的类印象图. 类印象图不依赖于真实数据集，并且能够模拟分类模型对某一类别的“认知”，因此使用类印象图作为目标类别样本，引导生成器生成目标对抗样本.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 采用VGG16或LeNet模型生成的类印象图示例

Fig.1 Examples of class impression maps generated using VGG16 or LeNet models

2. 双重引导方法

2.1. 类印象引导的目标对抗样本生成

为了引导生成器生成的对抗扰动误导分类模型，使其将对抗样本预测为目标类别，使用目标类别样本引导生成器生成含有目标类别特征的对抗扰动. 由于类印象图能够被分类模型以高置信度识别为相应类别标签，且类印象图中包含了分类模型对训练数据集中数据的类别印象，将类印象图作为输入，引导生成器生成目标类别特征.

尽管类印象图与原始样本在人眼看来差异较大，但是模型会以高置信度将类印象图预测为某一类别. 对于类印象图，可以通过不断优化与原始样本具有相同尺寸的随机噪声来获取. 具体操作为：将分类模型输出的目标类别的值作为损失函数值，对随机噪声进行持续的优化更新，直至分类模型以高概率将其预测为目标类别. 损失函数为

(4)$ L_{{\text{CI}}}^c = - M({\boldsymbol{z}}). $

式中：c为指定的目标类别，M为待提取类别记忆的分类模型，z为与原始样本大小相同的随机噪声.

在训练目标对抗攻击生成器时，须将目标类别标签作为条件信息来控制扰动的生成. 将目标类别的类印象图作为条件信息，与原始样本、硬标签一同输入到生成器中，如图2所示. 对于硬标签与目标标签，首先通过嵌入层进行升维操作，将其输出为与原始样本图像大小相同的一维结构. 随后，对2类标签及其对应的标签样本图像执行拼接操作，输入生成器的编码器中进行编码，提取相应的潜在空间特征. 在解码器对输入特征进行解码之前，对2个类别的潜在特征编码执行拼接操作，引导解码器生成含有目标类别特征的对抗扰动.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 对抗样本生成器结构图

Fig.2 Structure diagram of adversarial sample generator

为了维持对抗样本与原始样本的视觉相似性，使用UNet作为生成器，通过跳跃连接结构将原始样本的浅层特征传递到解码阶段，保留部分原始样本的纹理位置信息. 同时，利用图像的浅层特征生成扰动，提升对抗样本的攻击效果. 利用UNet中的跳跃连接结构，将编码器编码的原始图像特征输入加噪模块中进行加噪，随后对加噪后的特征与解码器输出的相同尺寸的特征进行拼接操作. 如图2所示，加噪模块包含2层卷积层和坐标注意力层. 卷积层生成浅层特征的扰动；坐标注意力层生成浅层特征的像素位置注意力权重，用于对浅层特征扰动进行加权处理. 将加权后的扰动与原始浅层特征叠加，获得浅层对抗特征. 该操作在对浅层特征进行扰动的同时，保留了原始样本图像的浅层纹理与位置信息，增强了对抗样本与原始样本之间的像素相似性. 上述过程可以表示为

(5)$ \boldsymbol{p}=G\left(\boldsymbol{x}, y, \boldsymbol{x}_{\mathrm{tar}}, y_{\mathrm{tar}}\right) , $

(6)$ \boldsymbol{x}_{\mathrm{adv}}=\boldsymbol{p}+\boldsymbol{x} . $

式中：p为生成器G生成的含有目标类别特征的对抗扰动.

2.2. 正则化对抗样本对模型泛化性能的增强

对抗样本的生成过程高度依赖于训练时使用的白盒分类模型，因此其在白盒攻击中成功率较高，在黑盒攻击中成功率较低. 分类模型的过拟合表现为在训练集上拟合效果良好，但是在测试集上性能显著降低. 引入正则化方法可以有效缓解模型的过拟合问题. 观察到神经网络的泛化性和对抗样本的迁移性之间的相似性，在生成的对抗扰动上使用正则化Dropout方法，以提高对抗样本的泛化性能. 与文献[25]不同的是，通过丢弃操作获得的对抗扰动不直接参与下一次迭代更新，而是用于计算损失函数以更新生成器；在推理阶段，使用非正则化的对抗扰动生成对抗样本.

在训练过程中，生成器生成对抗扰动的过程高度依赖于替代模型的输出. 由于替代模型对某些特征具有偏向性，生成器倾向于针对这些特征生成相应的对抗扰动. 在应用丢弃操作后，扰动值会被随机置零，替代模型的输出损失出现波动，迫使生成器不依赖于特定的特征组合，从而减少对替代模型的依赖，提高对抗扰动的迁移性能. 具体而言，在对抗扰动中随机将部分像素位置的扰动值置零，引导生成器在每次迭代中学习不同的扰动组合. 将正则化对抗扰动叠加到原始样本后，输入分类模型以获取对抗损失，并将该样本作为正例样本，使用余弦相似度损失函数计算其与非正则化对抗样本的特征相似度损失，通过拉近二者之间的特征距离来引导生成器生成具有更强泛化能力的对抗扰动. 损失函数设计如下：

(7)$ p_{\mathrm{res}}(i, j)=\left\{\begin{array}{cc}p(i, j), & p_{\mathrm{rnd}} \geqslant p_0; \\0, & p_{\mathrm{rnd}}\lt p_0.\end{array}\right. $

(8)$ \boldsymbol{x}_{\mathrm{res}}=\boldsymbol{x}+\boldsymbol{p}_{\mathrm{res}} . $

(9)$ L_{\text {res}}\left(\boldsymbol{x}_{\text {adv}}, \boldsymbol{x}_{\text {res}}\right)=L_{\text {cos}}\left(\varPhi\left(\boldsymbol{x}_{\text {adv}}\right), \varPhi\left(\boldsymbol{x}_{\text {res}}\right)\right) . $

式中：p₀为设定的丢弃概率，p_rnd为生成的0~1.0的随机值，(i, j)表示扰动的像素坐标，x_res为正则化对抗样本，p_res为最终获得的正则化扰动，Φ表示特征提取器对特征的处理. 为了提取样本的中间层特征，可以采用替代模型作为特征提取器.

2.3. 总损失函数设计

所提方法的总体框架如图3所示，主要包括生成器G、判别器D、分类模型M和特征提取器Φ.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 所提方法的总体框架图

Fig.3 Overall framework of proposed method

训练阶段主要分为2个步骤：1)利用分类模型M的记忆，生成类印象图；2)训练生成器生成目标对抗样本. 损失函数设计如下：

(10)$ \begin{split} L_{\mathrm{tot}}\left(\boldsymbol{x}, \boldsymbol{x}_{\mathrm{adv}}\right)=&L_{\mathrm{GAN}}\left(\boldsymbol{x}, \boldsymbol{x}_{\mathrm{adv}}\right)+L_{\mathrm{Adv}}\left(\boldsymbol{x}_{\mathrm{res}}, y_{\mathrm{tar}}\right)+\\&L_{\mathrm{res}}\left(\boldsymbol{x}_{\mathrm{adv}}, \boldsymbol{x}_{\mathrm{res}}\right) .\end{split} $

在上述损失函数的指导下，训练生成器生成对抗样本. 在推理阶段，将原始样本、硬标签、目标类别的类印象图以及目标标签输入生成器以获得对抗扰动，再将扰动与原始样本叠加，获得对抗样本.

3. 实验设计与结果

3.1. 实验设置

数据集：主要在MNIST、CIFAR10、SVHN数据集上进行实验，评估所提方法的性能. 对于给定的原始样本，随机选择1个目标类别进行对抗攻击.

分类模型：选择模型ResNet18^[32]、VGG16、DenseNet^[33]、WideResNet^[34]、Inv3^[35]、LeNet、AlexNet^[36]作为分类模型. 在训练过程中，设置批大小为128，使用Adam优化器，以0.01的初始学习率训练120轮，并将第50轮和第80轮后的学习率分别设置为0.001、0.0001. 针对CIFAR10数据集，使用基于快速梯度符号法（fast gradient sign method, FGSM）的对抗训练方式训练5个对抗训练模型，最大扰动设置为0.3，对抗样本与原始样本的数量比设置为1∶1，批大小为128，Adam优化器的学习率为0.001，训练轮数为100.

攻击方法：将提出的攻击方法与其他经典或先进的对抗攻击方法进行比较，包括MIM^[9]、VMI-FGSM^[37]、DIM^[21]、TIM^[14]、SIM^[20]、Auto-PGD^[10]、DO-M-DI2^[25]、DeCowA^[38]，以及主要用于目标攻击场景的攻击方法IDAA^[39]、LOGIT^[23]、POTRIP^[18]和AdvGAN^[26].

参数设置：对于类印象图，使用学习率为0.1、权重衰减为10⁻⁶的Adam优化器，迭代轮次为15 001. 在CIFAR10和SVHN数据集上使用VGG16模型作为待提取模型，在MNIST上使用LeNet模型. 在CIFAR10和SVHN数据集上，设置所有攻击方法的最大扰动幅度ε=64/255；在MNIST数据集上ε=32/255. 设置MIM、VMI-FGSM、DIM、TIM、SIM、DO-M-DI2方法的衰减因子μ=1.0，迭代轮数为100. 对于VMI-FGSM方法，设置β=1.5，num_neighbor=20. 对于DIM方法，resize_rate=1.1, diversity_prob=0.5. 对于TIM方法，使用核大小为15的高斯核. 对于SIM，将尺度副本数量设置为5. 对于DO-M-DI2，丢弃概率设置为0.5. 对于DeCowA，迭代轮数设置为100. 对于生成式攻击方法，在训练攻击模型时设置批大小为128，所提方法的训练轮数为60，AdvGAN方法的训练轮数为100；训练时将Adam优化器的初始学习率设为0.001，并依次在第50轮和第80轮衰减10倍（所提方法在第30轮衰减10倍）. 在CIFAR10和SVHN数据集上的所有攻击均使用VGG16作为替代模型和特征提取器，用于生成对抗样本；在MNIST数据集上使用LeNet模型. 选择替代模型VGG16的Conv3_3的输出和LeNet的layer2输出作为中间层特征. 对于JEPG压缩防御方法，设置Image quality = 80. 对于随机变化的输入防御方法，使用缩放和填充操作，设置概率为0.5，缩放比例为1.1.

评价指标：主要使用目标攻击成功率（targeted attack success rate，tASR）来评价对抗样本的性能，该指标用于衡量被黑盒模型分类为目标标签的对抗样本所占的百分比.

(11)$ {\text{tASR}} = {n \mathord{\left/ {\vphantom {n N}} \right. } N}. $

式中：N为被目标模型正确分类的原始样本数量，n为对抗样本中被分类为目标类别的样本数量. 各模型在原始数据集上正确预测的样本数量占总样本数量的比例，即分类准确率（ACC）如表1所示. 其中，CIFAR10+AT表示在CIFAR10数据集上对分类模型进行对抗训练.

表 1 不同分类模型在原始数据集上的分类准确率

Tab.1 Classification accuracy of different classification models on original datasets

分类模型	ACC/%
分类模型	MNIST	CIFAR10	CIFAR10+AT	SVHN
ResNet18	99.57	86.67	84.11	94.22
VGG16	—	87.87	79.51	93.71
DenseNet	—	90.09	83.94	94.93
WideResNet	—	91.89	88.25	95.23
Inv3	—	90.30	84.50	94.43
LeNet	99.20	—	—	—
AlexNet	99.28	—	—	—

新窗口打开| 下载CSV

3.2. 攻击性能评估

在多个数据集上对比分析所提方法的目标攻击性能和迁移能力，结果如图4和表2、3所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 各类攻击方法在MNIST数据集上的目标攻击成功率

Fig.4 Targeted ASRs of various attack methods on MNIST dataset

表 2 不同攻击方法在CIFAR10数据集上的目标攻击成功率

Tab.2 Targeted ASRs of various attack methods on CIFAR10 dataset

攻击方法	tASR/%
攻击方法	VGG16	ResNet18	Inv3	DenseNet	WideResNet	平均
MIM	100.00	83.45	93.64	93.97	94.41	91.37
Auto-PGD	100.00	73.68	86.68	87.33	87.74	83.86
DIM	99.64	78.22	83.72	84.27	84.95	82.79
TIM	83.66	29.71	26.82	26.20	29.08	27.95
SIM	99.53	73.47	81.58	81.74	81.25	79.51
VMI-FGSM	99.92	82.64	90.30	91.32	90.72	88.75
DO-M-DI2	95.09	55.12	67.46	68.25	72.12	65.74
DeCowA	98.93	68.76	71.40	74.86	77.08	73.03
IDAA	99.04	86.77	90.75	89.78	91.74	89.76
LOGIT	99.75	74.49	78.11	80.28	85.25	79.53
POTRIP	93.22	51.32	53.58	54.17	55.64	53.68
AdvGAN	97.08	39.68	61.08	70.28	65.34	59.10
本研究方法	98.31	93.52	96.01	97.09	97.66	96.07

新窗口打开| 下载CSV

首先评估攻击方法在MNIST数据集上的表现. 主要选择5种对抗攻击方法，分别为MIM、Auto-PGD、DIM、SIM和AdvGAN；除了AdvGAN-64方法的最大扰动幅度设为64/255外，其他方法均设置为32/255 . 对于生成的对抗样本，分别在分类模型AlexNet、ResNet18和LeNet上进行测试.

图4展示了攻击方法在MNIST数据集上生成的对抗样本的攻击性能. 在白盒模型LeNet上，所有的攻击方法均表现出较高的攻击性能，其中生成式攻击方法的性能相对较低. 所提方法在AlexNet和ResNet18模型上的目标攻击成功率均优于其他攻击方法，说明所提方法在黑盒攻击方面表现出更强的迁移能力. 其迁移目标攻击成功率比MIM和Auto-PGD高出31个百分点以上，相较于DIM、SIM提升了6个百分点以上，且明显高于AdvGAN.

表2和3分别展示了各攻击方法在CIFAR10和SVHN数据集上的攻击性能表现，其中Avg为攻击方法在不同黑盒模型上的平均目标攻击成功率. 从对黑盒模型的攻击成功率来看，所提方法在2个数据集上均获得了最佳的的迁移效果. 由表2可知，所提方法的白盒目标攻击成功率优于POTRIP，但是低于大部分梯度攻击方法. 在平均黑盒攻击成功率上，所提方法比最佳基准方法MIM高出5%左右，相较于IDAA和LOGIT方法提高了7%和21%，相较于POTRIP方法提高了79%左右. 从表3可以看出，所提方法的平均黑盒攻击成功率比MIM、IDAA、LOGIT、POTRIP方法分别提高了2%、20%、3%和9%左右. 与同样使用丢弃操作的DO-M-DI2方法相比，其在CIFAR10和SVHN数据集上分别提高了约46%、8%，可见所提方法更有助于提高目标对抗样本的泛化能力.

表 3 不同攻击方法在SVNH数据集上的目标攻击成功率

Tab.3 Targeted ASRs of various attack methods on SVHN dataset

攻击方法	tASR/%
攻击方法	VGG16	ResNet18	Inv3	DenseNet	WideResNet	平均
MIM	99.91	97.34	94.78	95.75	96.28	96.04
Auto-PGD	100.00	91.12	83.72	86.93	87.54	87.33
DIM	99.81	91.74	86.14	88.62	89.06	88.89
TIM	99.18	83.64	76.82	79.74	80.32	80.13
SIM	99.91	94.99	92.06	93.33	93.36	93.44
VMI-FGSM	99.98	95.51	93.32	94.17	94.45	94.36
DO-M-DI2	99.86	92.82	87.34	89.78	90.74	90.17
DeCowA	99.16	89.77	83.86	86.13	86.68	86.61
IDAA	87.97	83.52	80.78	80.39	81.05	81.44
LOGIT	99.97	96.80	93.08	94.60	95.49	94.99
POTRIP	99.69	92.19	88.56	88.47	89.52	89.69
AdvGAN	97.59	97.00	94.75	95.30	95.91	95.74
本研究方法	97.97	97.79	97.07	97.78	97.69	97.58

新窗口打开| 下载CSV

3.3. 在防御模型上的表现

针对对抗训练、随机输入变换以及JPEG压缩3种防御方法，评估所提方法的攻击性能.

对于对抗训练，使用未经对抗训练的VGG16模型作为白盒模型，并采用多种攻击方法攻击5个经过对抗训练的模型，包括经过对抗训练的VGG16，结果如表4所示. 所提方法在黑盒模型上得到了70%以上的攻击成功率，而其他攻击方法的攻击成功率约为20%~70%，说明所提方法在攻击经过对抗训练的模型时具有较高的迁移性能. 在CIFAR10数据集上攻击防御模型的结果如图5所示，其中折线图为对抗样本经随机变换后的目标攻击成功率，柱形图为经JPEG压缩后的目标攻击成功率. 所提方法生成的对抗样本在经过随机变换后，攻击性能下降，较低于LOGIT和Auto-PGD方法，但是远高于AdvGAN方法. 经JPEG压缩后，所有方法的攻击性能均明显下降. 综合来看，所提方法在面对对抗训练和随机输入变换防御措施时仍然能够保持良好的攻击效果；在面对JPEG压缩时表现较差，但是性能高于生成式对抗攻击方法AdvGAN.

表 4 CIFAR10数据集上各类攻击方法攻击经过对抗训练的模型时的目标攻击成功率

Tab.4 Targeted ASRs of various attack methods on CIFAR10 dataset when attacking adversarial training models

攻击方法	tASR/%
攻击方法	VGG16	ResNet18	Inv3	DenseNet	WideResNet
MIM	16.93	19.66	31.03	22.91	22.06
Auto-PGD	17.48	28.07	57.59	44.11	39.26
DIM	35.17	57.97	69.99	64.16	67.42
TIM	35.43	32.07	24.39	30.13	33.63
SIM	25.09	40.36	61.15	52.05	52.96
VMI-FGSM	25.83	36.55	58.91	47.09	46.63
DO-M-DI2	11.02	26.69	37.04	30.87	41.12
DeCowA	15.41	24.96	28.45	25.51	30.16
IDAA	38.77	48.95	66.79	59.91	49.07
LOGIT	39.55	50.10	59.29	51.38	55.14
POTRIP	29.08	37.28	48.22	42.89	40.67
AdvGAN	4.09	31.48	35.95	35.13	41.44
本研究方法	28.42	72.73	83.99	75.54	86.51

新窗口打开| 下载CSV

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 CIFAR10数据集上各类攻击方法攻击防御模型时的目标攻击成功率

Fig.5 Targeted ASRs of various attack methods on CIFAR10 dataset when attacking defensive models

LOGIT方法在面对随机变换防御时获得最优性能，IDAA方法在面对JPEG压缩防御措施时获得最优性能，而所提方法在面对对抗训练防御时获得最优性能. 由此可以看出，每种防御方法均具有一定的缺陷，仍然有攻击方法能够攻破防御. 因此，需要综合使用多种防御方法来抵御对抗样本的攻击，以提升分类模型的鲁棒性.

3.4. 消融实验

表5展示了生成式攻击方法在CIFAR10和SVHN数据集上的攻击结果，其中AdvGAN+U为采用UNet模型作为生成器的AdvGAN方法. 在CIFAR10数据集上，从AdvGAN和AdvGAN+U攻击方法的对比结果可以看出，浅层对抗特征大幅度提高了对抗样本的迁移性，tASR值提高了61.6%. 所提方法使用类印象和正则化方法，相较于AdvGAN+U方法，迁移成功率提高了0.6%，说明其能够提高对抗样本的泛化能力. 在训练过程中，生成器更倾向于采用针对替代模型的某些特定的处理方式生成对抗扰动，以提高生成性能. 在使用丢弃操作后，每次训练都会有一部分扰动值被丢弃，从而降低了生成器对替代模型的拟合程度，但具有更高的泛化性能，所以在面对其他黑盒模型时具有更高的迁移攻击性能. 对于SVHN数据集，所提方法高于AdvGAN+UNet方法0.7%，高于AdvGAN方法1.9%.

表 5 不同生成式攻击方法在CIFAR10和SVHN数据集上的目标攻击成功率

Tab.5 Targeted ASRs of various generative attack methods on CIFAR10 and SVHN datasets

数据集	攻击方法	tASR/%
数据集	攻击方法	ResNet18	Inv3	DenseNet	WideResNet	平均
CIFAR10	AdvGAN	39.68	61.08	70.28	65.34	59.10
	AdvGAN+U	93.00	95.80	96.19	97.03	95.51
	本研究方法	93.52	96.01	97.09	97.66	96.07
SVHN	AdvGAN	97.00	94.75	95.30	95.91	95.74
	AdvGAN+U	97.11	96.18	97.04	97.15	96.87
	本研究方法	97.79	97.07	97.78	97.69	97.58

新窗口打开| 下载CSV

为了验证正则化扰动对迁移能力的提升效果，使丢弃概率在0.1~0.9变化，探究其对攻击迁移性的影响，结果如图6、7所示. 从图6可以看出，随着丢弃概率的提升，攻击效果呈现出先增强后减弱的趋势，在概率为0.6时达到最高. 使用丢弃操作后，由于在训练过程中引入了随机置零操作，使得生成器不断探索更优的扰动组合，攻击性能得到了明显提升. 但是当概率值高于0.7时，由于丢弃概率过高，对抗扰动的稀疏性提高，保留的有效扰动较少，在训练过程中生成器无法有效地学习到数据的特征，导致对抗样本的攻击性能出现下降趋势. 从图7可以看出，当攻击经过对抗训练的模型时，方法的迁移效果在丢弃概率为0.5、0.6时达到最优.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 所提方法在不同丢弃概率下的目标攻击成功率

Fig.6 Targeted ASRs of proposed method with different dropout probabilities

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 所提方法在不同丢弃概率下攻击经过对抗训练的模型时的目标攻击成功率

Fig.7 Targeted ASRs of proposed method with different dropout probabilities when attacking adversarially trained models

4. 结　语

提出了一种新的黑盒目标对抗样本生成方法. 为了提高对抗样本的黑盒攻击效果，主要采用2种手段引导生成器生成对抗样本. 具体而言，为了使生成器生成的对抗样本能够误导分类模型将其预测为目标类别，引入类印象图作为生成器的输入之一. 通过提取类印象图的深层类别特征，并将其与原始样本的深层特征拼接后输入解码器，生成含有目标类别特征的对抗扰动. 为了提高对抗样本的迁移性，利用UNet模型的跳跃连接结构保留原始样本的浅层特征，增强对抗样本与原始样本的相似性；对生成的对抗扰动执行丢弃操作，使用正则化对抗样本计算对抗损失，并计算正则化对抗样本与非正则化对抗样本的特征相似度损失，更新生成器参数，以提高对抗样本的泛化性能. 实验结果表明，正则化Dropout方法能够影响对抗样本的泛化能力，而对对抗扰动执行适当的丢弃操作能够大幅度提升对抗样本的迁移性能. 与其他黑盒目标攻击方法相比，所提方法获得了更高的迁移成功率，但是在应对特征压缩类防御措施时表现较差. 下一步的工作目标是探索能够攻破多类防御措施的黑盒目标攻击方法.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

侯小虎, 贾晓芬, 赵佰亭

眼底病变OCT图像的轻量化识别算法

[J]. 浙江大学学报: 工学版, 2023, 57 (12): 2448- 2455