深度学习

实时语义分割的编解码网络---LEDNET

2019-05-13  本文已影响0人  逆风g

概述

  1. 目前语义分割领域倾向于追求高精度,CNNs由上百个卷积层和上千个通道组成,实时性差。
  1. 本文使用不对称编解码网络较好的平衡了准确率和速度的问题:
  1. 整体网络模型


编码器部分

残差(residual)通道拆分(split)通道打乱(shuffle)三者构成了编码器的基本模块—split-shuffle-bottleneck(SS-bt)
具体结构如下图d所示:


图a是resnet中基本残差模块,图b组合了1维的卷积核,图b加入了通道打乱技术。图d中可以发现输入分成了两支,每支都有一半的通道数,每支由1维卷积核组成,可以发现里面还包含了膨胀卷积,这里的膨胀因子用于控制感受野,主要用于第3次下采样后的卷积,之后会把两支concat到一起,保持输入输出通道数一致,利用残差思想,加上输入特征,最后通道随机打乱。
具体网络参数如图所示:

SS-bt中不包含下采样,和resnet不一样,这里有专门的Downsampling Unit模块,由两个并行结构组成,一个3x3步长2的卷积核(输出通道数=output-input),另一个是Max-pooling(输出通道数=input),二者会concat到一起。

解码器部分

主要由金字塔状的attention分支全局平均池化分支组成,其中attention这里会做三次下采样和上采样,通过point-wise sum融合不同层信息,对应卷积核大小分别为 3×35×57×7,并通过point-wise product对每个像素点attention;全局池化后点加到attention后的输出结果;最后上采样8倍大小,还原到输入图片尺寸大小。

实验

  1. 与其它实验在准确率和速度上的比较:


  2. 具体分类准确率的对比:


上一篇 下一篇

猜你喜欢

热点阅读