对抗样本和对抗训练对抗攻击

Transferable Adversarial Perturb

2018-10-08  本文已影响0人  cooody

Transferable Adversarial Perturbations 读书报告

简介

本文是 ECCV 2018 中的一篇论文,提出了一种改进的基于 BIM 的对抗攻击方式,使得白盒攻击的性能和黑盒攻击的性能都超过了原有的水平。

主要思路:

  1. 在 BIM 的基础上,改进其损失函数,添加正则项

  2. 最大化正常样本和对抗样本之间的距离

  3. smooth regularization on adversarial perturbations

FGSM & BIM 存在的问题

FGSM: 白盒攻击成功率较差,但是迁移性较好

BIM: 白盒攻击成功率较高,但是迁移性较差

之前有论文提出这样一个观点:单步的攻击迁移性较好,而基于迭代的攻击迁移性较差。

具体实现

通常寻找对抗样本的问题可以认为是以下优化问题:


1.png

本文提出的攻击方法 TAP 在一般的损失函数基础上加了两个正则项,如下:


2.png

TAP 优化方法伪代码:


3.png

最大化距离

深层网络存在梯度消失的问题,之前的方法如 BIM 无法高效的在几次迭代中最大化 loss,所以考虑加一个正则项,使得对抗样本的和正常样本之间在每一层的特征的距离尽可能的大,指导 loss 增大的方向。可参考图2中的第一个正则项,其中参数定义如下:


4.png

smooth regularization

不同的模型和训练数据会得到不同的最大化loss的参数,所以为了提升迁移性,之前解决这个问题的方法是对模型和数据进行集成学习。
根本的目的还是是移除高频扰动,并且减少不同扰动之间的差异。
但是这些方法的计算复杂度比较高,本文提出了一个更加高效的方法,直接添加正则项来解决这个问题。参考图2中最后一个正则项。其中,R为一个卷积操作,w为卷积核,可以认为是一个低通滤波器,使得相邻像素之间更加平滑

实验结果

下图可以发现 TAP 无论是在白盒攻击还是黑盒攻击下都有优秀的性能,并且其迁移性是所有攻击中性能最优的。
此外论文中还测试了对经过了对抗训练的网络应用以上攻击方法,结果基本一致, TAP 有优秀的性能。


5.png
上一篇下一篇

猜你喜欢

热点阅读