Transferable Adversarial Perturb
2018-10-08 本文已影响0人
cooody
Transferable Adversarial Perturbations 读书报告
简介
本文是 ECCV 2018 中的一篇论文,提出了一种改进的基于 BIM 的对抗攻击方式,使得白盒攻击的性能和黑盒攻击的性能都超过了原有的水平。
主要思路:
-
在 BIM 的基础上,改进其损失函数,添加正则项
-
最大化正常样本和对抗样本之间的距离
-
smooth regularization on adversarial perturbations
FGSM & BIM 存在的问题
FGSM: 白盒攻击成功率较差,但是迁移性较好
BIM: 白盒攻击成功率较高,但是迁移性较差
之前有论文提出这样一个观点:单步的攻击迁移性较好,而基于迭代的攻击迁移性较差。
具体实现
通常寻找对抗样本的问题可以认为是以下优化问题:
1.png
本文提出的攻击方法 TAP 在一般的损失函数基础上加了两个正则项,如下:
2.png
TAP 优化方法伪代码:
3.png
最大化距离
深层网络存在梯度消失的问题,之前的方法如 BIM 无法高效的在几次迭代中最大化 loss,所以考虑加一个正则项,使得对抗样本的和正常样本之间在每一层的特征的距离尽可能的大,指导 loss 增大的方向。可参考图2中的第一个正则项,其中参数定义如下:
4.png
smooth regularization
不同的模型和训练数据会得到不同的最大化loss的参数,所以为了提升迁移性,之前解决这个问题的方法是对模型和数据进行集成学习。
根本的目的还是是移除高频扰动,并且减少不同扰动之间的差异。
但是这些方法的计算复杂度比较高,本文提出了一个更加高效的方法,直接添加正则项来解决这个问题。参考图2中最后一个正则项。其中,R为一个卷积操作,w为卷积核,可以认为是一个低通滤波器,使得相邻像素之间更加平滑
实验结果
下图可以发现 TAP 无论是在白盒攻击还是黑盒攻击下都有优秀的性能,并且其迁移性是所有攻击中性能最优的。
此外论文中还测试了对经过了对抗训练的网络应用以上攻击方法,结果基本一致, TAP 有优秀的性能。
5.png