深度学习框架下的神经网络——卷积神经网络

2018-10-18 本文已影响31人 e025d18cbaaa

2017 年 9 月 13 日，苹果公司推出了新一代智能手机 iPhone X。相比于它的前辈们，iPhone X 的一项重要卖点就是引入了 Face ID 人脸识别技术，用户直接刷脸就可以解锁手机。虽然目前看来，Face ID 的识别率远没有苹果声称的那么“高精度”，但更加简单便捷的人脸识别无疑是未来的发展方向。而人脸识别乃至图像识别中的一项关键技术，就是卷积神经网络。

诞生于 1989 年的卷积神经网络已近而立之年，但它的首秀直到 9 岁才姗姗来迟。1998 年，今日的深度学习扛鼎者之一燕乐存提出了第一个卷积神经网络模型 LeNet-5，用来识别手写文本。遗憾的是，这个小朋友因为胃口太大（消耗计算资源多），并不招人喜欢。直到 2006 年，辛顿提出的逐层初始化训练算法才让韬光养晦的卷积神经网络一鸣惊人，这个少年也渐渐成长为神经网络和深度学习队伍中的中坚力量。

顾名思义，卷积神经网络（convolutional neural network）指的是至少在某一层中用卷积运算（convolution）来代替矩阵乘法的神经网络。卷积运算的特性决定了神经网络适用于处理具有网格状结构的数据。最典型的网格型数据就是数字图像，不管是灰度图像还是彩色图像，都是定义在二维像素网格上的一组标量或向量。因而卷积神经网络自诞生以来，便广泛地应用于图像与文本识别之中，并逐渐扩展到自然语音处理等其他领域。

用生活中的实例类比，卷积就可以看成是做菜，输入函数是原料，核函数则是菜谱。对于同一个输入函数鲤鱼来说，如果核函数中酱油的权重较大，输出的就是红烧鱼；如果核函数中糖和醋的权重较大，输出的就是杭帮菜的西湖醋鱼；如果核函数中辣椒的权重较大，输出的就是朝鲜族风味的辣鱼。不同的菜谱对应不同的口味，不同的核函数也对应不同的输出。

之所以将卷积运算应用于图像识别当中，是因为它具有一些优良的性质。卷积神经网络的稀疏感知性、参数共享性和平移不变性都有助于将它应用在图像处理之中。

卷积神经网络的结构并非卷积运算的简单组合，而是包含几个功能不同的层次。当输入图像被送入卷积神经网络后，先后要循环通过卷积层、激活层和池化层，最后从全连接层输出分类结果。每个层次各司其职，各负其责，都发挥着不可替代的作用。

深度学习框架下的神经网络——卷积神经网络

卷积神经网络结构的工作流程：输入层将待处理的图像转化为一个或者多个像素矩阵，卷积层利用一个或多个卷积核从像素矩阵中提取特征，得到的特征映射经过非线性函数处理后被送入池化层，由池化层执行降维操作。卷积层和池化层的交替使用可以使卷积神经网络提取出不同层次上的图像特征。最后得到的特征作为全连接层的输入，由全连接层的分类器输出分类结果。

最近两年，关于卷积神经网络的一项重要进展是残差网络的提出。将深度结构应用于卷积神经网络当中可以增强表达能力，在图像分类和目标检测等问题上表现出优异的性能。可是当网络的层数超过特定的阈值时，训练误差也会随着层数的增加而增加，网络的性能不仅不能提升，反而会出现显著的退化。残差网络正是通过残差结构单元解决了深度网络性能下降的问题，使网络层数可以达到千层以上。

深度学习框架下的神经网络——卷积神经网络

猜你喜欢

热点阅读