【技术综述】深度学习自动构图研究报告

2018-06-28 本文已影响54人有三AI

文章首发于微信公众号《与有三学AI》

【技术综述】深度学习自动构图研究报告

今天带来基于深度学习的图像构图的研究报告，主要涉及了基于CNN的图像剪裁方法的研究现状、数据集的发展、以及现有应用。

00什么是自动切图

我们在拍摄照片后，第一步要做的就是图像裁剪，也称为后期构图。构图，用于合理安排画面中的元素分布，提升照片的美感。

构图的自动化【1】既可以用于拍摄之前的构图推荐，也可以用于拍摄之后的自动调整，在许多的缩略图自动裁剪中也有用处，甚至用于自动拍照。

我在公众号和知乎的专栏中已经多次讲过计算机美学了，也介绍过现有的产品，所以这里不再过多赘述。下面我们说说计算机构图的原理。

01计算机构图的研究方法

接下来我们从这2个方面来讲讲计算机构图算法的原理。

1.1 显著目标方法

【2-3】也称之为Attention-Based的方法，它基于一个假设，图像中最显著的区域即照片中最相关的部分，因此我们应该保留最相关的部分，而裁剪其他部分。

如上面左图1，2是显著目标概率图，裁剪的时候就在保留显著目标的同时，裁剪掉了其他部分。

这类方法的目标就是研究如何用最小的剪裁窗口使得注意力（图像显著特性）总和最大化，它缺少对图像构图准则以及美学质量的考量，可能会导致剪裁出来的图像不美观。因为已经不是主流研究方法，就不细细说明了。

1.2 美学方法

基于显著目标的方法不是现在的主流，而基于美学的方法更加符合摄影师构图的原理，它要求裁剪出美学质量分数更高的区域。

上图文【4】是比较早的研究思路，它通过滑动窗口的方法获取一系列的候选裁剪框，然后从中选择美学分数最高的。这一类方法的问题就是效率太低，计算量太高，根本无法实用。

文【5】提供了不同的思路，如上图。它训练了一个显著目标检测网络，可以得到显著目标区域的初始化框，在它的附近，就可以采用不同的大小和比例，获取一系列候选的裁剪框，网络如下。

训练了另一个美学评估网络，用于选取美学分数更高的裁剪框。由于这个方法，只需要1次特征提取，且两个网络共享了若干神经网络卷积层，大大提高了剪裁窗口获取的效率，网络如下。

文【6】使用增强学习来更高效地搜索裁剪框，网络结构如下。

相比上面的两种方法，它需要更少的候选窗口与更少的运行时间，可以获得任意尺度位置更精确的剪裁窗口。

最新的研究来自于adode 2018年[7]的文章。该文章包含了两个网络，一个是view proposal network，用于提取候选框。另一个是viewevaluation net，用于从候选框中选择美学价值最高的，网络如下。

该文另一个贡献是整理了一个大型高质量的数据集，因为现有的数据集太小是限制研究的最主要原因。

02数据集

下面介绍两个主要的数据集。

1.1 FCDB

FCDB【1】数据集是一个专门为图像剪裁而设计构建的数据集。这个数据集一共包含1743张经过人工标记剪裁窗口的图片与34130张与原始图像相匹配的剪裁图像对。数据集里的每张照片都从专业摄影照片分享社区Flickr上下载后经人工筛选得到，具有较高的美学特征与较好的构图。

1.2 CPC[7]

这是adobe整理的，包含10800张图，超过1 million的图像对，每一个图像对就是原图和它的裁剪图，他们会有相对美学的标注。为了保证分布的广泛性，不仅选择了专业的图片，也选择了日常生活中的图片。

另外还有一些小的数据集，不一一列举。

03优化目标

怎么评估一个自动裁剪算法的好坏呢？下面介绍两个。

3.1 IoU

平均交叉区域average intersection-over-union，这也是目标检测中使用的优化目标。上式中N为输入图片的总数，wig为第i幅输入图像ground truth的窗口，wic为不同方法剪裁出的第i幅输入图像的最优窗口，IoU的值越大说明剪裁的最优窗口与ground truth的窗口越接近，即剪裁的效果越好。

3.2 平均边界位移

平均边界位移average boundary displacement。上式中N为输入图片的总数，big(l,r,u,d)为第i幅输入图像ground truth的窗口4条边与原图像对应边的距离，bic(l,r,u,d)为不同方法剪裁出的第i幅输入图像的最优窗口4条边与原图像对应边的距离，Disp的值越小说明剪裁的最优窗口与ground truth的窗口越接近，即剪裁的效果越好。

04总结

随着研究人员的活跃和数据集的增长，自动构图算法一定会在这几年得到快速的发展。

想要体验一下自动构图算法吗？我已经给你准备好了！欢迎来我的小程序，同时在我的摄影公众号中也给大家准备了一些现有的app的介绍。可以扫描下面小程序二维码和摄影号二维码，或者在菜单栏中体验。

更多，欢迎到知乎专栏去投稿与交流，配套资料将放出在github，可扫描二维码进入。

打一个小广告，我的计算机视觉公开课《AI 图像识别项目从入门到上线》上线了，将讲述从零基础到完成一个实际的项目到微信小程序上线的整个流程，欢迎交流捧场。

参考文献：

[1] Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysisof Automatic Image Cropping Algorithms: A Dataset andComparative Study[J]. 2017:226-234.

[2] Stentiford F W M. Attention based auto image cropping[J].Proc Icvs, 2007.

[3] Chen J, Bai G, Liang S, et al. Automatic Image Cropping: AComputational Complexity Study[C]// Computer Vision andPattern Recognition. IEEE, 2016:507-515.

[4] Chen, Yi-Ling, Klopp, Jan, Sun, Min, et al. Learning toCompose with Professional Photographs on the Web[J].2017:37-45.

[5] Wang W, Shen J. Deep Cropping via Attention Box Predictionand Aesthetics Assessment[J]. 2017.

[6] Li D, Wu H, Zhang J, et al. A2-RL: Aesthetics AwareReinforcement Learning for Image Cropping[J]. 2017.

[7] Zijun Wei1, Jianming Zhang2, Xiaohui Shen2, Zhe Lin2,Radom´ır Mˇec, Good View Hunting: Learning PhotoComposition from Dense View Pairs

[8] Yan J, Lin S, Kang S B, et al. Learning the Change forAutomatic Image Cropping[C]// Computer Vision and PatternRecognition. IEEE, 2013:971-978.

如果想加入我们，后台留言吧

更多请移步

1，我的gitchat达人课

龙鹏的达人课

2，AI技术公众号,《与有三学AI》

一文说说这十多年来计算机玩摄影的历史

3，以及摄影号，《有三工作室》

冯小刚说，“他懂我”

【技术综述】深度学习自动构图研究报告

猜你喜欢

热点阅读