深度学习之目标检测Computer Science

深度学习目标检测算法对比详述(RCNN,FAST-RCNN,FA

2018-07-23  本文已影响127人  VanJordan

综述_部分内容借鉴

目标检测中的RNN家族 与 基于深度学习的回归方法
RNN家族
采用selective search+CNN+SVM的RCNN模型
SVM进行分类
SPP Net(空间金字塔池化)

论文中使用三层的金字塔池化层pooling,且论文中设置每次特征图被分别切成(1,4,16)块,然后按照层次对这个特征图分别处理(用代码实现就是for(1,2,3层))。第一层对这个特征图整个特征图进行池化(池化又分为:最大池化,平均池化,随机池化),论文中使用的是最大池化,然后得到了1个特征。第二层先将这个特征图切分为4个(20,30)的小的特征图,然后使用对应的大小的池化核对其进行池化得到4个特征。第三层先将这个特征图切分为16个(10,15)的小的特征图,然后使用对应大小的池化核对其进行池化得到16个特征,然后将这1+4+16=21个特征输入到全连接层,当然了,这个层数是可以随意设定的,以及这个图片划分也是可以随意的,只要效果好同时最后能组合成我们需要的特征个数即可,这就SPP-Net的核心思想。

Fast-RCNN

总结 :R-CNN有一些相当大的缺点(把这些缺点都改掉了,就成了Fast R-CNN)容易看见,Fast R-CNN相对于R-CNN的提速原因就在于:不过不像R-CNN把每个候选区域给深度网络提特征,而是整张图提一次特征,再把候选框映射到conv5上,而SPP只需要计算一次特征,剩下的只需要在conv5层上操作就可以了。

Faster RCNN(与Fast RCNN 的区别是使用RPN网络,所以Faster RCNN讲解就是RPN网络的讲解)

RPN简介: 
• 在feature map上滑动窗口
• 建一个神经网络用于物体分类+框位置的回归
• 滑动窗口的位置提供了物体的大体位置信息
• 框的回归提供了框更精确的位置

RPN网络
PRN网络结构
FasterRcnn的PRN网络 bounding box regression Proposal 层

1.对整张图片输进CNN,得到feature map
2.卷积特征输入到RPN,得到候选框的特征信息
3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类
4.对于属于某一类别的候选框,用回归器进一步调整其位置

什么是下采样

缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图
下采样原理:对于一副图像I尺寸为MN,对起进行s倍下采样,即得到(M/s)(N/s)尺寸的分辨率图像,当然,s应该是M和N的公约数才可以,如果考虑是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的 均值:Pk = Σ Ii / s2。

未完待续。。。

上一篇 下一篇

猜你喜欢

热点阅读