前言
生成对抗样本的大体思路分为白盒攻击和黑盒攻击,区别在于黑盒测试把模型当做黑盒,只能输入样本获得预测结果,白盒在黑盒的基础上还可以获取模型的参数、梯度等信息。本文将介绍白盒攻击中鼎鼎大名的FGSM算法。
1FGSM基本原理
FGSM最早由Goodfellow在其论文《Explaining and Harnessing Adversarial Examples》中提出。以最常见的图像识别为例,我们希望在原始图片上做肉眼难以识别的修改,但是却可以让图像识别模型产生误判。假设图片原始数据为x,图片识别的结果为y,原始图像上细微的变化肉眼难以识别,使用数学公式表示如下。
将修改后的图像输入分类模型中,x与参数矩阵相乘。
对分类结果的影响还要受到激活函数的作用,攻击样本的生成过程就是追求以微小的修改,通过激活函数的作用,对分类结果产生最大化的变化。Goodfellow指出,如果我们的变化量与梯度的变化方向完全一致,那么将会对分类结果产生最大化的变化。
其中sign函数可以保证与梯度函数方向一致。
可见当原始数据的维度越大,攻击的累计效果越明显。以一个更加直观的例子来说明FGSM的原理。假设具有2000个样本,每个数据具有1000维,每维的数据的数值的大小都在0-1之间随机生成,分类标签只有2种。
损失函数使用最简单的mse,优化方式使用adam,考核的指标为准确度accuracy。
在我的Mac本经过2分钟16次迭代训练,获得了新的家猪图像,但是机器学习模型识别它为烤面包机的概率却达到了74.31%,迭代次数明显减少。
batch:11 Cost: 2.7044188%batch:12 Cost: 16.616838%batch:13 Cost: 38.806009%batch:14 Cost: 52.693129%batch:15 Cost: 38.372087%batch:16 Cost: 74.312818%
基于FGSM算法被识别为烤面包机的家猪的图片效果如下。
由于我们设置的退出条件是概率大于60%,所以FGSM没有继续迭代下去,我们通过设置阈值可以得到概率更大的图片,在进一步的实验中我们通过37次迭代得到了概率为99.56%的攻击图片。
batch:34 Cost: 97.030985%batch:35 Cost: 90.346575%batch:36 Cost: 63.920081%batch:37 Cost: 99.558592%
基于FGSM算法被识别为烤面包机的家猪的图片效果如下。
Ian Goodfellow在他的论文《Adversarial examples in the physical world》中指出,针对图像的攻击方式在现实生活中也可以发生,攻击图片经过拍照打印后依然可以欺骗图像分类模型,系统错把“洗衣机”标签为“保险箱”。
微信公众号介绍:中国电信北京研究院通过整合电信自有数据、互联网数据和线下数据,创建了业内领先的“灯塔”大数据行业应用平台,致力于与行业合作伙伴共同打造大数据行业应用生态圈。
】关键字信息:
下载《2018中国区块链行业分析报告》
下载《物联网+:制造业向智能服务转型的新引擎》全文
获取美国人工智能投资报告完整版全文
下载《普华永道:区块链让城市更智能》全文
下载12种工具的获取方式
下载大数据瞭望半月刊
查看更多关键字回复