深度学习之卷积神经网络

2019-04-01 本文已影响2505人你要好好学习呀

深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。深度学习是一个框架，包含多个重要算法，卷积神经网络Convolutional Neural Networks(CNN)只是其中的一个算法。

从神经网络到卷积神经网络：

我们所知道的神经网络是这样的：

而卷积神经网络，顾名思义，利用了数学上的卷积操作(convolution)。和前面总结的基本的前馈神经网络相比，CNN只不过是将某层或某几层中的矩阵乘法运算替换为卷积运算，其他的比如说最大似然法则，反向传播算法等等都保持不变。

卷积神经网络的层级结构

• 数据输入层/ Input layer

　　• 卷积层/ CONV layer

　　• ReLU激励层 / ReLU layer

　　• 池化层 / Pooling layer

　　• 全连接层 / FC layer

1.数据输入层

该层要做的处理主要是对原始图像数据进行预处理，其中包括：

　　• 去均值：把输入数据各个维度都中心化为0，其目的就是把样本的中心拉回到坐标系原点上。

　　• 归一化：幅度归一化到同样的范围，即减少各维度数据取值范围的差异而带来的干扰，比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。

　　• PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化

2.卷积层

我们用传统的三层神经网络需要大量的参数，原因在于每个神经元都和相邻层的神经元相连接，但是思考一下，这种连接方式是必须的吗？全连接层的方式对于图像数据来说似乎显得不这么友好，因为图像本身具有“二维空间特征”，通俗点说就是局部特性。譬如我们看一张猫的图片，可能看到猫的眼镜或者嘴巴就知道这是张猫片，而不需要说每个部分都看完了才知道，啊，原来这个是猫啊。所以如果我们可以用某种方式对一张图片的某个典型特征识别，那么这张图片的类别也就知道了。这个时候就产生了卷积的概念

卷积层是卷积神经网络最重要的一个层次，也是“卷积神经网络”的名字来源。

在这个卷积层，有两个关键操作：

•局部关联：滤波器(filter)--卷积核

•窗口(receptive field)滑动， filter对局部数据进行计算

先介绍卷积层遇到的几个名词：

•深度/depth（通道数）-上一层过滤器的个数就是下一层的深度

•步长/stride -（窗口一次滑动的长度）

•填充值/zero-padding-当还剩下像素没办法滑完，或者是希望输出结果和输入图像的像素值一样大。

如下图，这里的蓝色矩阵就是输入的图像（注意，蓝色矩阵周围有一圈灰色的框，那些就是上面所说到的填充值），粉色矩阵就是卷积层的神经元，这里表示了有两个神经元（w0,w1）。绿色矩阵就是经过卷积运算后的输出矩阵，这里的步长设置为2。

其中具体的计算过程为：

可以总结出：有n*n的图像，用f*f的过滤器做卷积，则输出结果的维度是：（n-f+1）*（n-f+1）

当步幅为s,填充值为p,则输出结果为：((n+2*p-f)/s+1)*((n+2*p-f)/s+1)

立体卷积：

n*n*nc的图像和f*f*nc的过滤器，输出结果为：（n-f+1)*(n-f+1)*nc'----这里的nc'表示的是过滤器的个数。

参数共享机制

　　• 在卷积层中每个神经元连接数据窗的权重是固定的，每个神经元只关注一个特性。神经元就是图像处理中的滤波器，比如边缘检测专用的Sobel滤波器，即卷积层的每个滤波器都会有自己所关注一个图像特征，比如垂直边缘，水平边缘，颜色，纹理等等，这些所有神经元加起来就好比就是整张图像的特征提取器集合。

　　• 需要估算的权重个数减少

　　• 一组固定的权重和不同窗口内数据做内积: 卷积

3.激励层

把卷积层输出结果做非线性映射。

CNN采用的激励函数一般为ReLU(The Rectified Linear Unit/修正线性单元)，它的特点是收敛快，求梯度简单，但较脆弱，图像如下。

激励层的实践经验：

①不要用sigmoid！不要用sigmoid！不要用sigmoid！

② 首先试ReLU，因为快，但要小心点

③ 如果2失效，请用Leaky ReLU或者Maxout

④ 某些情况下tanh倒是有不错的结果，但是很少

4.池化层

池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。

简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。

这里再展开叙述池化层的具体作用。

1. 特征不变性，也就是我们在图像处理中经常提到的特征的尺度不变性，池化操作就是图像的resize，平时一张狗的图像被缩小了一倍我们还能认出这是一张狗的照片，这说明这张图像中仍保留着狗最重要的特征，我们一看就能判断图像中画的是一只狗，图像压缩时去掉的信息只是一些无关紧要的信息，而留下的信息则是具有尺度不变性的特征，是最能表达图像的特征。

2. 特征降维，我们知道一幅图像含有的信息是很大的，特征也很多，但是有些信息对于我们做图像任务时没有太多用途或者有重复，我们可以把这类冗余信息去除，把最重要的特征抽取出来，这也是池化操作的一大作用。

3. 在一定程度上防止过拟合，更方便优化。

池化层用的方法有Max pooling 和 average pooling，而实际用的较多的是Max pooling。

这里就说一下Max pooling，其实思想非常简单。

即选取每个过滤器的最大值（超级参数为：过滤器大小和步幅s,基本不会用到padding，即p=0)

5.全连接层

两层之间所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的：

一般CNN结构依次为

1.INPUT

2.[[CONV -> RELU]*N -> POOL?]*M

3.[FC -> RELU]*K

4.FC

卷积神经网络之训练算法

1.同一般机器学习算法，先定义Loss function，衡量和实际结果之间差距。

2.找到最小化损失函数的W和b， CNN中用的算法是SGD（随机梯度下降）。

卷积神经网络之优缺点

优点

•共享卷积核，对高维数据处理无压力

•无需手动选取特征，训练好权重，即得特征分类效果好

缺点

•需要调参，需要大样本量，训练最好要用GPU

•物理含义不明确（也就说，我们并不知道没个卷积层到底提取到的是什么特征，而且神经网络本身就是一种难以解释的“黑箱模型”）

深度学习之卷积神经网络

猜你喜欢

热点阅读