比赛规则介绍

2021-05-17 本文已影响0人闭门造折

赛题背景

近年来，人工智能技术在视觉识别领域有飞速的发展，但与此同时，人工智能模型的安全问题却不容乐观。
通过引入对抗样本，攻击者很容易就可以通过肉眼几乎观察不到的微小扰动，使模型分类失误。
本次比赛希望可以让参赛选手了解和探索Cifar10上的对抗攻击场景，通过组合对抗攻击方案，实地体验不同对抗攻击算法特点。

数据说明及描述

比赛采用 Cifar-10 数据集，我们筛选了500张图像，这些图像都是 32 * 32 大小，图像名称形如 X.jpg，其中 X 为 [0, 500)范围内的整数
比赛提供了标签文件 label.txt 存储每张图的分类标签。该文件中每一行内容代表：图像名称图像类别

比赛流程

参赛者可通过本页面下方下载接口，下载本赛事提供的专有数据集。
参赛者本地自行实现相应的图像攻击算法，并对专有数据集做攻击
参赛者在该页面中提交个人攻击后数据集，数据集格式与原有数据集格式相同
平台对用户提交数据集做评测，并根据结果提供排名。

提交文件

参赛者需要提交扰动好的样本，提交时需要将所有图像压缩为一个 zip 压缩包，其中包含 500 张修改后的图像，图像格式及名称都应和原始图像保持一致。
压缩包的文件树如下所示：

|-- images
  |-- 0.jpg
  |-- 1.jpg
  |-- ...
  |-- 499.jpg
|-- label.txt

评测

本次比赛的提交评测，在该平台上进行，具体的计算指标如下：

客观分

假设原始图像为 $X=\{ x_1, x_2, ..., x_n\}\$ ，用户提交的 500 张攻击样本为 $X'=\{x'_1, x'_2, ...,x'_n\}\$ ，我们主要测试以下三个方面：

图像攻击性。通过测试选手提交样本在后台模型上的攻击成功率，来代表样本的攻击性，这个值的计算公式为：
$Score_{ASR}=\frac{||{x'|F(x')\neq y}||}{n}$
其中 $n$ 表示样本数， $F(x')$ 表示以模型对用户样本的预测结果， $y$ 表示图像原始标签
图像结构相似性：计算原始图像与对抗图像间像素间关联性，判断是否介入了大规模修改，这个值的计算公式为：
$\mu_x=\frac{1}{N}\sum_{i=1}^N x_i$

$\sigma_x=( \frac{1}{N-1}\sum^N_{i=1}(x_i-\mu_x)^2 )^{1/2}$

$Score_{SSIM(x,x')}=\frac{(2\mu_x\mu_{x'}+C_1)(2\sigma_{x{x'}}+C_2)}{(\mu_x^2+\mu_{x'}^2+C_1)(\sigma_x^2+\sigma_{x'}^2+C_2)}$
具体的，在本次竞赛中，测试的是攻击成功样本的，平均图像结构相似度。
更多结构相似度理论说明，可以参看
《Image Quality Assessment : From Error Visibility to Structural Similarity》

噪声容量估计：噪声容量估计(Noise Tolerance Estimation)，对抗样本的鲁棒性可通过噪声容限来估计，噪声容限反映了对抗样本在保持分类类别不变的情况下，可容忍的噪声量，用于计算攻击方法本身的鲁棒性。这个值的计算公式为：
$Score_{NTE}=\frac{1}{n}\sum_{i=1}^n[P(X_i^a)_{F(X_i^a)}-maxP(X_i^a)_j]$
NTE值越高，说明对抗样本的鲁棒性越高。更多噪声容量估计相关说明，可以参看
《Towards Imperceptible and Robust Adversarial Example Attacks against Neural
Networks》

整体的客观打分计算规则为
$Score_M = 100 * Score_{ASR} * Score_{SSIM} * Score_{NTE}$

主观分

合规图像筛选
为避免用户取巧，在客观打分基础上，额外通过人工评测的方式，筛选不合规图像，并按照合规图像比例打分。
合规图像筛选部分的打分规则为
$Score_{valid}=\frac{1}{n} Count(Valid\ Sample)$
其中 Count 方法为计数统计，当样本合法时统计值为1，不合法时统计值为0。主要的不合规图像说明如下：
图像质量评分
人为的，我们将图像质量按照肉眼可辨识度，分为5个档次，分别对应1-5分。图像质量评分部分大根规则为：
$Score_{quality}=\frac{1}{5n}\ *\ \sum_{i=1}^nquality(x_i)$
其中 $quality(x_i)$ 为图像 $x_i$ 的质量评分。质量评分规则如下：