文章学习43“NIMA: Neural Image Assess

2019-11-22 本文已影响0人 Carrie_Hou

本文是TIP2018年8月刊登的一篇进行图像评估的文章，作者来自Google研究院，本文在IQA领域不是很出名，但是图像美学评估里一篇必看的文章，所以GitHub上复现的代码非常非常多。

类似于IQA问题中的TID和LIVE数据集，美学图像质量评估中也有一个较大的数据集AVA，其中包括255000张图像，每一张都有200位左右的摄影师进行打分，分值范围是1~10，下图是打分分值分布，可以看出平均分在5.5左右，有将近一半的图像标准差大于1.4.进行这些统计的原因来自于本文的贡献点：以往进行图像质量评估的方法都是以人工打分的平均值作为label，而统计表明分值的偏差过大，用平均值来拟合恐怕不合适，因此作者在本文中提出用分值的概率分布来作为label，用EMD作为loss函数进行训练。

而TID2013数据集中的统计分布却不符合上述观察，据我猜测，应该是由于TID中大部分数据都是由人工增加噪声或者损害得到的，其比较起来很容易进行排序，而且数据量又比较少（3000张），所以难以发现偏差的问题，实验中用mos的平均值作为label即可。

再来看LIVE数据集，其为真实摄像获得的1172张图像，其标准差更大，所以如果针对真实图像来说，直接用平均值拟合不太合理。

基于上述发现和统计规律，作者希望舍弃掉mos的均值而使用分值的概率分布，网络主体结构部分借由ImageNet预训练的各个模型完成feature extract，而后直接通过全连接层进行10分类（1~10的得分），这里作者将传统IQA里的回归问题转化为了分类问题，受“Cross-entropy vs. squared error training: A theoretical and experimental comparison” 启发。

训练的loss函数为EMD（推土机距离，WGAN中大放异彩的loss），下式中的CDF值得前m项的累积和，通过EMD衡量两个概率的分布相似性。

本文方法的创新基本就上文中这些，把MOS的平均值换成概率分布，用EMD进行训练，但仍旧是美学图像质量评估的标准baseline。和其他期刊文章一样，作者也进行了大量的实验。

Feature extractor部分的网络有VGG，inception和mobilenet，在每个数据集上用80%进行训练，20%用于测试，在AVA数据集和TID2013的实验结果如下两表：

事实上性能并没有提升多少，甚至不如前人方法，但是快啊，用预训练的model实验，速度相当可以，再来看看作者前面发现的统计规律是否真实，下图是AVA数据集上测试分值的概率分布和平均值拟合结果，很明显可以看出平均值的概率分布拟合是很成功的，但是标准差就很难拟合了，作者认为是由于AVA数据集中图像的主题和风格非常规性影响的。

作者还做了跨数据集测试的实验和图像质量排序的可视化结果，具体不进行讲解，主要看一下作者利用这个评分标准进行图像恢复的实验，这一点也符合我工作的预期设想。作者在这里适用Turbo去噪，其中参数的调节就利用质量评估方法所给的指标进行反向反馈，实验证明这种方法可以减少过渡平滑的出现。但这种做法总感觉有点太暴力，也就类似于我拿个网络做IQA，然后我前面做图像恢复的网络用IQA结果当做loss。

文章学习43“NIMA: Neural Image Assess

猜你喜欢

热点阅读