图像质量评价标准简介
1. 人类视觉系统(HVS)
a) 从空间频域来看,人眼是一个低通线性系统
b) 人眼对亮度的响应具有对数非线性性质
c) 人类对亮度信号的空间分辨率大于对色度信号的空间分辨率
d) 人眼视觉系统对信号进行加权求和运算,相当于使信号通过一个带通滤波器。
e) 图像的边缘信息对视觉很重要,特别是边缘的位置信息,人眼容易感觉到边缘的位置变化,而对边缘的灰度误差并不敏感
f) 人眼的视觉掩盖效应是一种局部效应,受背景照度、纹理复杂性和信号频率的影响,具有不同局部特性的区域,在保证不被人眼察觉的前提下,允许改变的信号强度不同
2. 分类
图像质量评价(IQA),根据参考图片(reference image),即原始图片的存在与否,可分为:
a) 全参考(full-reference)方法
b) 半参考(reduced-reference)方法
c) 无参考(no-reference)方法
其中,FR方法研究比较成熟,相关方法较多。RR方法只有原始图片的部分信息,相关方法不是很有效,NR方法目前还处于研究中,因此我们这里只对FR方法进行介绍
3. FR方法
FR方法需要同时用到原始图片和失真图片,对二者的特征进行相似性比较。一般来说,FR-IQA包括两类方法,一种是传统的自底向上方法,这类方法基于HVS的某些视觉通路,如掩盖效应,对比灵敏度,最小可视差等,由于HVS的复杂性和认知的有限性,这类自底向上的方法通常很难与主观感知保持一致;比较经典的自底向上方法有MSE/PSNR。另一种是自顶向下的方法。这类方法对HVS的整体函数进行建模,利用了图像的全局信息,与主观感知的一致性要高于前一类方法。这类方法比较经典的算法包括,SSIM,MDSI以及GMSD
4. 算法介绍
a) MSE/PSNR
其中,MAX是表示图像颜色的最大数值,对于8bit的灰度图,MAX为255。MSE是失真图像K与原始图像I像素值的均方误差。PSNR的单位是dB,数值越大表示失真越小。
PSNR是最普遍和使用最为广泛的一种图像客观评价指标,然而它是基于对应像素点间的误差,即基于误差敏感的图像质量评价。由于并未考虑到人眼的视觉特性(人眼对空间频率较低的对比差异敏感度较高,人眼对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响等),因而经常出现评价结果与人的主观感觉不一致的情况。
下图:失真图像的MSE都是一样的,也就是说它们的PSNR值是一样的,但是从人眼的角度来看,明显失真程度是不一样的。
b) 自顶向下方法的基本过程
对于一般的自顶向下方法,其工作过程大致可以分为两个阶段:首先,对参考图像和失真图像的局部特征进行相似性比较,得到图像的local quality map(LQM),可用的特征有亮度,对比度,图像梯度等;之后对LQM使用一定的pooling strategy,得到一个全局的分数。常用的pooling方法有,average pooling,weighted pooling,Minkowski pooling等。其工作过程如下图所示:
c) SSIM(Structural SIMilarity)
论文作者认为,HVS能高度自适应提取场景中的结构信息,它分别从亮度、对比度、结构三方面度量图像相似性。
计算过程如下:
亮度 对比度 亮度相似性 对比度相似性 结构相似性计算可得到SSIM值:
其中,C1,C2, C3为常数,用于防止分母为零。SSIM取值范围[0,1],值越大,表示图像失真越小.
在实际应用中,出于对稳定性和HVS更关注局部信息的考虑,并不是对全局图像计算一个SSIM值,而是对局部分块进行SSIM的计算,一般分块大小为8*8;同时,为了解决这种做法带来的“blocking”问题,使用高斯加权计算每个块的均值、方差和协方差,最后对所有的SSIM进行平均,得到:
以上五张图MSE值相同,但是具有不同的失真程度。可以看到,SSIM给出了较为客观的评价d) GMSD(Gradient MagnitudeSimilarity Deviation)
这篇论文作者认为,图像梯度对图像失真程度高度敏感,局部质量下降在全局图像的差异可以反映图像的质量。GMSD运用了图像梯度作为LQM,使用deviation pooling作为pooling方法,在当时达到了state-of-art的效果。
计算过程如下:
Prewitt Filter分别与参考图像(reference image)和失真图像(distorted image)做卷积操作:
得到GMS分布:
最后在GMS上运用deviation pooling,便可得到GMSD分数:
其中,n是总pixel数量。
作者在三个数据库,LIVE,CSIQ和TID2008上对算法进行了评价,评价指标分别为:PCC,衡量预测准确性;SRC,衡量预测单调性;RMSE,衡量预测连续性,得到如下的结果:
可以看到,平均性能,以及在某些数据库上,GMSD的表现是最好的。FSIM在LIVE上评分较高,但是TID2008上表现较差,作者之后进行实验发现时由于它对某些特定的噪声有较好的表现,但对于大部分噪声,其性能还是不如GMSD的。
e) MDSI( Mean Deviation SimilarityIndex)
MDSI是目前除了少数Traing-based FR方法之外,性能最好的算法。它使用了梯度和颜色作为特征得到LQM,最后使用deviation pooling对LQM进行pooling操作。
首先计算梯度相似性:
计算色度相似性:
其中,H,M为高斯颜色模型:
结合梯度相似性与色度相似性:
进行deviation pooling:
MDSI衡量了图像的相似性,取指越小,图像质量越高
作者在一些数据库上进行了实验,与其他FR方法进行了比较:
可以看到,MDSI的综合性能是最高的。