DeepLab系列之V2
2019-05-21 本文已影响0人
逆风g
- 论文地址:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
- 收录:TPAMI 2017 (IEEE Transactions on Pattern Analysis and Machine Intelligence)
- 论文代码: deeplab-public-Caffe
概述
- DCNNs中语义分割存在三个挑战:
- 连续下采用和重复池化,导致最后特征图分辨率低
- 图像中存在多尺度的物体
(和v1不同之处)
- 空间不变性导致细节信息丢失
- 处理方案:
- 移除部分池化操作,使用空洞卷积
(后来都叫膨胀卷积)
- 利用不同膨胀因子的空洞卷积融合多尺度信息—atrous spatial pyramid pooling(ASPP)
(和v1不同之处)
- Fully-connected Conditional Random Field(CRF)
3.优势
- 速度很快,DCNN 8fps,CRF需要0.5秒
- 准确率高,当时在PASCAL VOC 2012、PASCAL-Context、PASCAL- Person-Part、Cityscapes效果最好
(实验数据集更多)
- 结构简单,DCNN和CRF的组合
膨胀卷积
论文中给出的一维上示意图:
其中rat是膨胀因子,卷积公式如下:
y是输出信号,x是输入信号,w是卷积模板,可以发现r用来控制对输入信号的采样间隔。更多介绍在v1中。
膨胀卷积有两种实现方式:
- 上采样卷积核,参数之间插入
r-1
个0
。例如K
大小的卷积核上采样之后大小为k+(k-1)(r-1)
- 下采样输入特征图,隔行去采样产生
r平方
个子特征图,然后正常卷积,最后插值返回输入大小的分别率。(当你发现随着膨胀因子增大,网络训练时间增加的很快时,不用怀疑底层实现肯定是这样的)
ASPP结构
作者尝试了两种方案物体多尺度问题:
- 通过resize多尺度输入图片,最终结果取对象像素点位置最大的响应结果。
-
受R-CNN的spatial pyramid pooling(SPP)启发,得到ASPP结构。
具体结构如图所示:
通过不同的rate构建不同感受野的卷积核,用来获取多尺度物体信息。
CRF
主要利用CRF来优化物体细节信息,并且此处是全连接CRF。具体分析看v1中介绍。
CRF能量函数:
第一个式子一元项保证像素分类的准确率,第二个式子二元项保证约束关系。
一元项结构由DCNN产生。
二元项具体如下:
由两个高斯核构成,第一个核保证了相似颜色和位置的像素具有相似的标签;第二个核保证了光滑性。
实验
- 作者验证了学习策略
poly
比step
更有效(caffe平台)
-
自对比实验
- MSC—多层次融合
- COCO—
预训练
- Aug—随机resize输入图片(0.5—1.5)
- LargeFOV—fc6的rate为12(v1中有介绍)
- ASPP—空洞金字塔池化
- CRF—全连接条件随机场
- Cityscapes上结果
其中StrongWeak使用了cityscapes的粗糙标注集
。
其它数据集结果就不依依列出了。
展望
如果一元项结果并不准确,即使使用CRF,效果也得不到提升,将探索编解码结构解决这个问题。