计算机视觉深度学习网络架构整理

2018-09-17 本文已影响44人高天蒲

这是一个深度学习的航海地理大发现时代，每年都有新思想、新技术诞生。这是最好的时代，也是最坏的时代！
论文、开源实现(pytorch,tensorflow等)链接

图像分类	发表日期	作者	简要介绍
LeNet	1998	Yann LeCun	早期卷积神经网络中的代表系统之一，2个卷积层、2个池化层和3个全连接层。用于银行支票上的手写数字识别。
AlexNet	2012	Alex Krizhevsky	架构有5个卷积层和3个全连接层，使用了ReLU激活函数、dropout层、LRN(Local Responce Normalization,实践中发现没多大作用?)、数据增强及CUDA加速等技术。
ZFnet	2013	MD Zeiler	alexnet基础上的改动，亮点是通过使用可视化技术揭示了神经网络各层的作用。
NIN	2013		Network In Network, 用1*1卷积代替FC层？
VGGNet	2014		(Visual Geometry Group) 结构非常简洁，反复堆叠3x3的小型卷积核和2x2的最大池化层构建。
GoogLeNet	2014		受NIN启发，引入Inception结构,无需人为决定使用什么样的过滤器。
FCN	2014		Fully Convolutional Networks,可以接受任意大小的输入图像
ResNet	2015	何恺明	深度残差网络,在网络深度上不断加深，但其网络较瘦，控制了参数数量，存在明显层级，特征图个数逐层递进，保证输出特征表达能力，没有使用Dropout，利用BN和全局平均池化进行正则化，加快了训练速度。ResNet有多个模型，常用的有ResNet-50， ResNet-101，ResNet-152等。
DenseNet	2016		任何两层之间都有直接的连接，减轻了vanishing-gradient（梯度消失），加强了feature的传递，更有效地利用了feature，并在一定程度上较少了参数数量。密集连接：缓解梯度消失问题，加强特征传播，鼓励特征复用，极大的减少了参数量。
DPN	2017		Dual Path Networks

轻量化网络	发表日期	作者	简要介绍
SqueezeNet	2016.02	伯克利&斯坦福	新的网络架构Fire Module，通过减少参数来进行模型压缩，并对参数空间进行了探索，更适合在FPGA等内存受限的设备上部署。
MobileNet	2016.04	Google	移动端,引入了传统网络中采用的group思想，即限制滤波器的卷积计算只针对特定的group中的输入，从而大大降低了卷积计算量，提升了移动端前向计算的速度，适合在嵌入式设备上部署。
ShuffleNet	2016.06	Face++	移动端,对移动端低功耗设备提出了一种更为高效的卷积模型结构，在大幅降低模型计算复杂度的同时仍然保持了较高的识别精度。
Xception	2016.10	Google	--

*notice 目标检测，NG主要讲YOLO，RCNN则为选修课？

目标检测	发表日期	作者	简要介绍
RCNN	2013		目标检测里程碑之作，利用selective search算法从待检测图像中提取2000个左右的候选框，用CNN提取每个候选框的特征，得到固定长度的特征向量并送入SVM中进行分类得到类别信息，送入全连接网络进行回归得到对应位置的坐标信息。
SPP-Net			SPP-Net是在RCNN的基础上提出，该方法还依赖候选框的生成，但将提取候选框特征向量的操作转移到卷积后的特征图上进行，将RCNN中的多次卷积变为一次卷积，大大降低了计算量。
Fast RCNN	2015	Ross Girshick	针对SPP-Net进一步的改进，主要创新是ROI Pooling层，它将不同大小候选框的卷积特征图统一采样成固定大小的特征。另外Fast RCNN针对RCNN和SPP-Net多阶段训练，耗费时间空间的问题进行改进，将深度网络和后面的SVM分类两个阶段融合到一起，使用一个新的网络直接做分类和回归。
Faster RCNN	2015	Shaoqin Ren等	在主干网络增加了RPN网络，通过一定的规则设置不同尺度的锚点在RPN的卷积特征层提取候选框来代替Selective Search等传统的候选框生成方法，实现了网络的端到端训练。
R-FCN	2016		在Faster RCNN的基础上通过引入位置敏感得分图，将ROI-wise subnetwork消灭了，直接在位置敏感得分图上利用ROI Pooling进行信息采样融合分类和位置信息。
YOLO-v1	2015		区别于RCNN系列为代表的两步检测算法，YOLO-v1舍弃了候选框提取分支，直接将特征提取、候选框回归和分类在一个无分支的卷积网络中完成，使得网络结构变得简单，检测速度较Faster RCNN也有近10倍的提升。
YOLO-v2			加入当下热门的批量归一化层以及残差网络结构外，还针对性的训练了一个高分辨率的分类网络。
YOLO-v3			采用多尺度预测及更好的backbone网络，分类损失采用binary cross-entropy损失函数替换softmax损失函数
SSD	2015		Single Shot MultiBox Object Detector，对YOLO-v1进行改进，达到了和两阶段深度学习目标检测算法相当的精度，同时又保持了较快的运行速度，SSD也才采用了网格划分的思想，和Faster RCNN不同的是，它将所有的操作整合在一个卷积网络中完成。

人脸识别	发表日期	作者	简要介绍
siamese network			孪生网络
FaceNet			.
DeepFace?			.

siamese network 孪生网络 ?

参考:

Train CIFAR10 with PyTorch

上一篇下一篇

猜你喜欢

热点阅读