2018-04-16
论文:End-to-End Blind Image Quality Assessment Using Deep Neural Networks
作者:Kede Ma , Wentao Liu, Kai Zhang,Zhengfang Duanmu ,Zhou Wang and Wangmeng Zuo ,
文章及相关资源链接:资源
几个名词:GDN、the gMAD competition、D-test、L-test、P-test
GDN: Generalized Divisive Normalization(广义分裂标准化),本文中使用的激活函数。不同于ReLU,作者认为GDN可有效减少模型参数。GDN作为基于生物启发的激活函数,在评估图像质量[1],高斯化图像密度[ 2]和压缩数字图像[3]方向证明有效。
[1]Q. Li and Z. Wang, “Reduced-reference image quality assessment using divisive normalization-based image representation,” IEEE J. Sel. Topics Signal Process., vol. 3, no. 2, pp. 202–211, Apr. 2009.
[2] J. Ballé, V. Laparra, and E. P. Simoncelli, “Density modeling of images using a generalized normalization transformation,” in Proc. Int. Conf. Learn. Represent., 2016, pp. 1–14.
[3] J. Ballé, V. Laparra, and E. P. Simoncelli, “End-to-end optimized image compression,” in Proc. Int. Conf. Learn. Representat., 2017, pp. 1–27.
the gMAD competition:the group MAximum Differentiation (gMAD) competition(群体最大差异化竞争方法):考察模型普遍性和健壮性的方法。允许一组模型在大型数据库中发现最佳刺激进行竞争,并能够尽量减少测试刺激的数量,因为基本上甚至有一个反例就足以反证一个模型。
D-test:Pristine/distorted image discriminability test(原始/失真图像辨别性测试)。给定一个数据库,我们将原始和失真图像的分组分别设为Sp和Sd, 基于模型预测,可以找到最优阈值T *以最大化正确的分类率
D-test 条件L-test:List wise ranking consistency test(排名一致性测试)。测试仅在失真级别上有所不同图像在BIQA模型的一致性。首先假设,随着任何失真类型的失真水平的增加,图像质量单调地降低。 给定具有J个源图像,C类畸变类型和L个畸变等级的数据库,采用平均SROCC来量化排序一致性
L-test其中I是失真等级, s是模型预测值
P-test:Pairwise preference consistency test(成对偏好一致性测试)。它建立在DIP(可区分图像对)的概念上,该概念包含两个感知质量可区分的图像。 给定Q个 DIP的数据库,BIQA模型正确预测了Qc 个(DIP)的一致性
P-test关于D-test、L-test、P-test见参考文献[4]。
[4] K. Ma et al., “Waterloo exploration database: New challenges for image quality assessment models,” IEEE Trans. Image Process., vol. 22, no. 2, pp. 1004–1016, Feb. 2017.
论文内容:
本文提出了一个多任务端到端优化深度神经网络(MEON)实现盲图像质量评估。 MEON由两个子网络组成 , 一个失真识别网络和一个质量预测网络,二者共享早期层。与用于训练多任务网络的传统方法不同,本文的训练过程分两步进行,第一步训练一个识别失真类型的子网络;第二步,从预训练的早期层和第一个子网络的输出作为初始化,使用随机梯度下降法的变体来训练质量预测子网络。本文选择生物启发的广义分裂标准化(GDN)而不是ReLU作为激活函数。作者凭经验证明,GDN可有效减少模型参数/图层,同时实现类似的质量预测性能。由于模型复杂程度适中,所提出的MEON指数在四个公开可用的基准上达到了最新水平。此外,使用群体最大差异化竞争方法证明了MEON对于最先进的BIQA模型的强大竞争力。
输入:大小为256×256×3的图像
输出:图像失真类型和预测质量
网络结构:
MEON卷积层参数:height × width | input channel × output channel | stride | padding
子网络I旨在以概率向量的形式识别失真类型,其表示每个失真的可能性并且作为子网络II的部分输入馈送,子网络II的目标是预测图像质量。每个子任务都有损失函数,由于子网络II依赖于子网络I的输出,所以两个损失不是独立的。我们通过子任务I对MEON中的共享层进行预训练,然后利用统一的损失函数联合优化整个网络。
GDN变换被定义为:
GDN其中,S代表维度,偏差向量β,权重矩阵γ,其值都>=0
输入结构:
输入Xk代表第k个图像, P(k)代表第k个图像的失真类型, q(k)代表第k个图像的MOS值
早期的共享层参数表示为W,经过在卷积池化后。用64维特征向量表示256×256×3原始图像,子网1的参数表示为W1,将预测出的失真类型,我们采用softmax函数将范围编码为[0,1]
失真类型预测 C种失真类型的概率子网1的损失函数
经验交叉熵损失子网2的参数表示为W2,其损失函数为
L1范式其中,
si是第i类失真对应的分数因此,整个网络的损失函数可定义为
损失函数训练第一步,最小化子网1的损失函数,第二布,联合优化,最小化整个损失函数。实验过程及结果参见论文。