语义分割论文阅读之一:RefineNet:Multi-Path

2019-01-09  本文已影响0人  漂泊信天翁Alan

1. motivation

使用FCN来解决Semantic segmentation 问题要解决的主要问题是,随着FCN中的层数的加深,feature map的分辨率会因为步长不为1的卷积层和pooling层的存在而变得越来越小。目前解决这两个问题的主要思路有以下两个:

但是前两种方法都有自己本身存在的缺陷:

第三种方法同时使用FCN里中间层次的feature map,这类方法背后的直觉原因是:中间层次的特征既能够描述mid-level的物体构成部分特征,也能够保留更多的空间信息。(图像中:像素构成了边,边构成了图案,图案构成了部件,部件构成了物体,物体构成了场景:In vision, pixels are assembled into edglets, edglets into motifs, motifs into parts, parts into objects, and objects into scenes)mid-leve的特征补充了low-level特征的高等抽象不足,同时也补充了high-level特征在空间信息上的缺失。
作者认为所有level的特征对于语义分割都是有用的。high-level的特征帮助图像区域的分类识别,low-level的特征帮助保留空间信息,产生更加细腻的边界。那么如何利用mid-level的特征是一个有待解决的问题。有鉴于此,作者提出了一种利用mid-level信息的网络结构---RefineNet。

2. method

文中提出的网络结构是基于ResNet的,根据feature map的分辨率将ResNet的blocks分成了四部分,四部分的feature map分辨率分别是原始图像的1/4, 1/8, 1/16, 1/32。将此四个block的输出分别作为4个级联的RefineNet block的输入,每一个Refine block都直接和ResNet block的输出相连。

每一个Refine block由三个级联结构构成:RCU: Residual Conv Unit、Multi-resolution Fusion和Chained Residual Pooling。其中:

最后网络又经过了一个RCU模块来对融合之后的feature maps进行一次非线性操作,生成用来进行预测的feature map。

3. result

文中提出的方法在7个公共数据集上(挺牛X的)都达到了state-of-the-art的水平:PASCAL VOC 2012、PASCAL-Context、NYUD v2、SUN-RGBD、Cityscapes、ADE20K, Person-Parts dataset[图片上传失败...(image-e937b3-1547038018170)]

上一篇下一篇

猜你喜欢

热点阅读