文章学习43“NIMA: Neural Image Assess
本文是TIP2018年8月刊登的一篇进行图像评估的文章,作者来自Google研究院,本文在IQA领域不是很出名,但是图像美学评估里一篇必看的文章,所以GitHub上复现的代码非常非常多。
类似于IQA问题中的TID和LIVE数据集,美学图像质量评估中也有一个较大的数据集AVA,其中包括255000张图像,每一张都有200位左右的摄影师进行打分,分值范围是1~10,下图是打分分值分布,可以看出平均分在5.5左右,有将近一半的图像标准差大于1.4.进行这些统计的原因来自于本文的贡献点:以往进行图像质量评估的方法都是以人工打分的平均值作为label,而统计表明分值的偏差过大,用平均值来拟合恐怕不合适,因此作者在本文中提出用分值的概率分布来作为label,用EMD作为loss函数进行训练。
而TID2013数据集中的统计分布却不符合上述观察,据我猜测,应该是由于TID中大部分数据都是由人工增加噪声或者损害得到的,其比较起来很容易进行排序,而且数据量又比较少(3000张),所以难以发现偏差的问题,实验中用mos的平均值作为label即可。
再来看LIVE数据集,其为真实摄像获得的1172张图像,其标准差更大,所以如果针对真实图像来说,直接用平均值拟合不太合理。
基于上述发现和统计规律,作者希望舍弃掉mos的均值而使用分值的概率分布,网络主体结构部分借由ImageNet预训练的各个模型完成feature extract,而后直接通过全连接层进行10分类(1~10的得分),这里作者将传统IQA里的回归问题转化为了分类问题,受“Cross-entropy vs. squared error training: A theoretical and experimental comparison” 启发。
训练的loss函数为EMD(推土机距离,WGAN中大放异彩的loss),下式中的CDF值得前m项的累积和,通过EMD衡量两个概率的分布相似性。
本文方法的创新基本就上文中这些,把MOS的平均值换成概率分布,用EMD进行训练,但仍旧是美学图像质量评估的标准baseline。和其他期刊文章一样,作者也进行了大量的实验。
Feature extractor部分的网络有VGG,inception和mobilenet,在每个数据集上用80%进行训练,20%用于测试,在AVA数据集和TID2013的实验结果如下两表:
事实上性能并没有提升多少,甚至不如前人方法,但是快啊,用预训练的model实验,速度相当可以,再来看看作者前面发现的统计规律是否真实,下图是AVA数据集上测试分值的概率分布和平均值拟合结果,很明显可以看出平均值的概率分布拟合是很成功的,但是标准差就很难拟合了,作者认为是由于AVA数据集中图像的主题和风格非常规性影响的。
作者还做了跨数据集测试的实验和图像质量排序的可视化结果,具体不进行讲解,主要看一下作者利用这个评分标准进行图像恢复的实验,这一点也符合我工作的预期设想。作者在这里适用Turbo去噪,其中参数的调节就利用质量评估方法所给的指标进行反向反馈,实验证明这种方法可以减少过渡平滑的出现。但这种做法总感觉有点太暴力,也就类似于我拿个网络做IQA,然后我前面做图像恢复的网络用IQA结果当做loss。