图像处理当中的一些知识point
2018-04-02 本文已影响34人
少寨主的互联网洞察
1.卷积核
详细内容看原文地址:原文地址
卷积神经网络中卷积核的作用是提取图像更高维的特征,一个卷积核代表一种特征提取方式,对应产生一个特征图,卷积核的尺寸对应感受野的大小。
卷积示意图:
- 卷积核的大小一般是(2n+1)*(2n+1)的奇数乘奇数大小(n>=1)
- 一般情况下,使用nn大小的卷积核对大小为NN的图像卷积,结果图像尺寸缩小为(N-n+1),这种卷积操作的都是图像上真实的像素,不需要对图像进行扩充,也叫有效补白(Valid Padding)。
- 奇数卷积核有中心点,可以方便的确定位置,而偶数的卷积核不存在绝对的中心点。
2.为什么卷积之后越来越“厚”
详细内容看原文地址:原文地址
取小方块的大小是3x3,我们要求起厚度必须要和左边的大方块厚度一样,那么小方块的的大小就为3x3x3,我们就可以赋予其3x3x3个权重,然后我们就可以开始计算卷积的结果,将小方块从大方块的左上角开始,一个卷积小方块所覆盖的范围是3x3x3,然后我们将大方块中3x3x3的数字和小方块中的权重分别相乘相加,再加上一个偏差,就可以得到一个卷积的接过,可以抽象的写成Wx+b这种形式,这就是图上所显示的接过,然后我们可以设置小方块的滑动距离,每次滑动就可以形成一个卷积的计算结果,然后讲整张大图片滑动覆盖之后就可以形成一层卷积的结果,我们看到图中的卷积结果是很厚的,也就是设置了很多层卷积。总结来说,就是每层卷积就是一个卷积核在图片上滑动求值,然后设置多个卷积核就可以形成多层的卷积层。
3.Max Pooling
最大池化是一个滤波器,该滤波器按照一定的步长把一个区域内的值选出一个最大值作为这个区域的代表值
4.图像分类三大类--原文链接
-
语义级图像分类
image -
细粒度图像分类
image -
实例级图像分类(这个有点不好理解——是对不同的个体进行分类,如人脸识别。)
image
5.图像识别中一些经典的网络模型--原文链接
相信大家在学习图像分类的时候,经常会看到诸如LeNet、AlexNet、VGGNet等名词术语,然而心里却没有一个大致的印象,这就造就了不少的疑惑。下面我们来看看这些名词术语的含义究竟是什么:
-
LeNet
LeNet5 是 Yann LeCun 在1998年设计的用于手写数字识别的卷积神经网络,是早期最具代表性的CNN实验系统之一。LeNet5 包括2个卷积层,2个池化层,2个全连接层和一个Gaussian 连接层,结构如下:
[图片上传失败...(image-7071f5-1522653556590)] -
AlexNet
AlexNet 是Alex Krizhevsky等在ILSVRC-2012图像分类任务中提出的,并赢得了当年的冠军。ALexNet包含5个卷积层,3个全连接层,3个池化层以及每个卷积层中包含的激励函数ReLU和局部归一化处理(Local Response Normalization,LRN)。AlexNet的出现比后面出现的模型意义更重大,证明了CNN在复杂模型下的有效性,确立了CNN在计算机视觉中的地位。
[图片上传失败...(image-f01946-1522653556590)] -
VGGNet
VGGNet是由牛津大学视觉几何组(Visual Geomety Group)提出,获得 ILSVRC-2014中定位任务第一名和分类任务第二名。。该模型有着结构简单且深度、精度增强的优势。VGGNet有5 个卷积群,每个群内有 2~3 个卷积层,之后连接一个池化层来缩小图片尺寸。
image -
GoogleNet
GoogleNet 在ILSVRC-2014中获得了分类任务第一名。主要创新点就是提出 Inception 模块。GoogleNet 模型由多组Inception模块组成,总共22层网络:开始由3层普通的卷积组成;接下来由三组子网络组成,第一组子网络包含2个Inception模块,第二组包含5个Inception模块,第三组包含2个Inception模块;然后接均值池化层、全连接层。GoogleNet 截止目前,GoogleNet已经有了四次改进,每次都会带来准确度的提升。
image -
ResNet
ResNet(Residual Network)是由何恺明等提出来的, 该模型获得了ILSVRC-2015图像分类、图像物体定位和图像物体检测比赛的冠军。ResNet提出了采用残差学习来解决训练卷积神经网络时加深网络导致准确度下降的问题。ResNet 具有152层结构。
image
以上4、5点再次感谢@陈鹏的文章