CVPR2020:上交大让合成图像更真实,提出了通过域验证进行深
作者
点击添加图片描述(最多60个字)
介绍
图像合成是图像处理中常用的操作。我们可以从一个图像中剪切并粘贴前景,然后将其粘贴到另一个图像上以获得合成图像。合成地图可以用来获取感兴趣的目标图像,也可以用于数据增强。它有着广泛的应用。然而,用这种方法得到的合成图存在着前景大小或位置不合理、前景与背景看起来不一致等问题。我们的工作重点是解决合成图像中前景与背景不协调的问题。具体来说,在合成图像中,前景和背景是在不同的拍摄条件(如时间、季节、光线和天气)下拍摄的,因此在亮度和颜色方面存在明显的不匹配问题。图像协调的目的是调整合成图像中的前景,使之与背景相协调。
传统的图像协调方法通常将背景或其它图像的颜色信息传递到前景,但这不能保证调整后的前景看起来真实,与背景和谐。近年来,人们尝试用深度学习来协调图像,但合成图像和真实图像的配对非常困难。如果没有成对的合成图和真实图,那么深度学习的训练过程就缺乏足够强的监控信息,合成图协调后的结果也不是评价的基本事实。截至目前,还没有公开的大规模图像协调数据库。我们已经构建并发布了一个由四个子数据库组成的图像协调数据库。此外,提出了域验证的概念,并尝试了一种基于域验证的图像协调算法。
方法
我们构建数据库的方法是按照策略建模的。具体来说,在给定一幅真实图像的情况下,我们选择一个前景来调整它与背景的不一致性,得到一幅人工合成的图像。这种建立数据库的方法可以生成大规模的训练数据对,以训练深度学习模型。但之前的paper没有公布其建立的数据库,而且建立数据库的方式在合成地图的合理性和多样性上存在明显的缺陷。调整前景使其与背景不协调并不困难。仅仅改变前景的亮度就可以快速生成大量的合成地图。然而,很难保证合成图的合理性和多样性,也很难接近实际的应用场景。
因此,我们在之前文献中建立了一个扩充版和增强版的数据库,其中包含73146对合成图和实图。我们的数据库包含四个子数据库:HCOCO、HAdobe5k、hflicker、Hday2night,其中Hday2night是在之前文献中找不到的子数据库。Hday2night的合成图更接近真实的合成图,与其他3个子库相比具有特殊的参考价值。针对合成图像生成中存在的各种问题,我们采用了两轮自动筛选和人工筛选的方法,逐一保证最终保留图像的质量。对最终数据库进行了全面详细的分析,包括不同的前景比例、不同的前景调整方法、不同的语义类型对图像协调数据库的影响以及图像协调算法的结果。接下来,我们从每个子数据库中选择两个示例来显示我们的数据库。如下图所示,我们调整真实图像的前景(对应于遮罩的区域)以获得合成合成图像。可以看出,在合成图像中,虽然前景是真实的,但它与背景明显矛盾,整个图像看起来不真实。图像协调的任务是调整合成图像的前景,使其与背景相协调。
点击添加图片描述(最多60个字)
点击添加图片描述(最多60个字)
Domain是一个非常宽泛的概念,在不同的应用任务中有着不同的含义。与域相关的应用也吸引了越来越多的研究者的兴趣,如域自适应、域泛化、域分类、域翻译等。
近年来,许多流行的图像到图像的翻译方法如pix2pix、cycleGAN、MUNIT、DRIT等都属于域翻译的范畴。域转换的一个经典应用是将白天的景观图转换为夜间的景观图,白天和夜晚可以被看作两个域。同样,我们把每个拍摄条件(如时间、季节、光线和天气)视为一个域,因此对于真实的图片有无限多的可能域。真实图像的前景和背景是在相同的拍摄条件下拍摄的,因此属于同一个域。合成图像的前景和背景可以在不同的拍摄条件下拍摄,因此属于不同的域。我们不知道合成图像中前景和背景的域标签,只需要将前景转移到与背景相同的域。因此,图像协调可以看作是特殊场景下的域转换。在此基础上,提出了域验证的概念,即确定前景和背景是否属于同一个域,并设计了一个域验证鉴别器,用来拉近前景和背景的和谐度。区域。我们的整体网络结构如下所示:
点击添加图片描述(最多60个字)
作者生成器的结构是基于UNet实现的,但是添加了一个类注意块。而且还引入了两个鉴别器。
第一鉴别器是在生成对抗网络(GAN)中作用于整个图片的标准鉴别器,使得生成图片的数据分布接近真实图片的数据分布。
第二个鉴别器是我们提出的域验证鉴别器,它使生成的图像中的前景域和背景域尽可能接近。
具体来说,我们首先使用部分卷积分别提取前景和背景的域表示。部分卷积首先应用于图像修复。该方法用于提取形状不规则的前景和背景的域表示,避免了其他区域信息的泄漏和默认填充方法的干扰。基于前景和背景的域表示,作者提出了一种域验证损失。虽然域验证损失最终以对抗性损失的形式包装,但它本质上是基于前景域和背景域表示的相似性的验证损失。在建立的数据库上,作者的方法、传统的图像协调方法和基于深度学习的图像协调方法进行比较。实验结果表明,该方法优于现有方法。可视化结果的比较如下图所示。作者比较了先前的图像协调深度学习方法DIH和S2AM,而且作者也比较了没有域验证鉴别器的方法。
点击添加图片描述(最多60个字)
此外,作者还对之前文献提供的99幅真实合成图进行了用户研究,结果表明作者的方法优于现有的方法。对于量化指标,由于有一幅真实的地面真实图,可以对生成地图的效果进行量化评价。
作者使用MSE和PSNR,并提出了只考虑前景的fMSE,因为对于前景比例较小的合成地图,转换后的前景误差可能会被背景重建误差所覆盖,尝试过其他定量指标,如SSIM、LPIPS等,但由于合成图和实图在结构和语义上非常接近,所以作者认为这些定量指标并不十分可靠。因此,最终只使用定量指标MSE/fMSE、PSNR和用户主观评价指标B-T得分。
论文地址源码下载地址:关注“图像算法”微信公众号 回复“Domain”