深度学习

DeepLab系列之V1

2019-05-09  本文已影响2人  逆风g
  1. DeepLab系列之V1

概述

作者发现Deep Convolutional Neural Networks (DCNNs) 能够很好的处理的图像级别的分类问题,因为它具有很好的平移不变性(空间细节信息已高度抽象),但是DCNNs很难处理像素级别的分类问题,例如姿态估计和语义分割,它们需要准确的位置信息。

  1. 两个问题要处理:
  1. 处理方案:

3.优势

网络结构—DCNN

  1. 啥是空洞卷积?
    论文中给出了示意图:

    Input stride 也就是空洞因子或者膨胀因子,在同样的卷积核大小下,通过增加Input stride可以增大卷积核的感受野。更好的示意图:

    可以发现感受野从3变成 了5,近似的扩大了2倍,卷积核大小仍为3x3,Input stride为2,现在都叫dilate rate
  2. Finetune VGG-16
    重温VGG-16结构图:



    作者为了加载预先在ImageNet训练好的VGG-16模型,并保证图片仅缩放了8倍做了如下修改:

  1. 加速训练
    第一个全连接层fc6,通道数从4096变为1024,卷积核大小从7x7变为3x3,后续实验中发现此处的dilate rate为12时(LargeFOV),效果最好。

网络结构—CRF

通常网络中分类准确率和位置准确性是一对矛盾的存在,有一些工作尝试在保证分类准确率的条件下解决位置问题:

一般利用到条件随机场(CRFs)来处理分割中不光滑问题,它只考虑到目标像素点的附近点,是一个短距离的CRFs。由于网络中得到的结果已经比较光滑了,更希望的是修复一些小的结构,所以用到了全连接的CRF模型。它的能量函数:

网络结构—MLP

作者也尝试融合了多层次信息,前四个pool层之后都额外接了两个卷积层,第一个卷积层128 3x3,第二卷积层128 1x1,和最后一个softmax层concat之后会有5*128=640个通道,训练这部分分支时,固定其它网络的参数。
发现多层次融合后能提升细节信息,但是没有CRF来的明显。

实验

  1. 以下是自对比实验


从图中可以发现DeepLab-CRF-LargeFOVDeepLab-CRF-LargeFOV的mean IOU相同都为67.64,说明7x7的卷积核和dilate rate为12的3x3卷积核效果一样,而3x3的卷积核参数更少。

  1. 与FCN-8s和TTI-Zoomout-16的效果对比

    从上到下依次为原图真值图被对比的效果图DeepLab-CRF的效果图
上一篇 下一篇

猜你喜欢

热点阅读