CNN

(1998, LeNet-5)Gradient-Based Le

2019-01-10  本文已影响0人  运动小爽

有了前面几篇论文的经验积累,Yan LeCun在1998年的这篇论文中正式提出了LeNet-5—第一个广为人知的经典CNN网络模型。

但是这篇文章的内容远不止提出了一个LeNet-5,整整75页的内容,专门LeNet-5的部分只有不到10页,位于论文的第二部分。

真实世界中的文档识别系统(document recognition system)是由多个模块(modules)组成的,典型地包括:

可见,LeNet-5分类模型仅仅构成了文档识别系统中的单字符识别模块。

之前传统的文档识别系统中的以上4个模块通常是单独优化,然后将每个模块进行级联(cascade),这种方法有两个主要缺点:

解决以上级联系统的一个有效方法是构造一个统一的多模块网络,能够同时对所有子模块的参数进行全局优化。

除了提出LeNet-5,本文的另一个重要贡献是提出了一个图转换网络(Graph Transformer Networks,GTN),GTN就是这样一个完成文档识别所有工作的多模块系统,它可以使用基于梯度的优化算法进行全局优化。

总的来说,这篇文章的主要观点是:通过更少地依赖于手工设计(hand-designed)、更多地依靠自动化的学习(automatic learning),可以构造出更好的模式识别系统(pattern recognition system)

不得不说,这篇文章的思想,至今为止任然是AI各个领域的指导。比如目标检测中的R-CNN系列模型的发展,以及场景文本检测和识别领域的端到端(end-to-end)优化,都是20年前的这篇文章思想的具体实现,如此经典的论文有必要细细咀嚼。

下面主要对LeNet-5和GTN的细节进行简单整理。

1. LeNet-5

卷积网络结合了3个架构设计特点来保证一定程度上的平移、尺度和旋转不变性(shift,scale and distortion invariance):

其中,局部感受野的思想最早可追述到1962年Hubel和Wiesel著名的发现:猫的视觉系统中包含局部敏感(locally-sensitive)和具有方向选择性(orientation-selective)的神经元。最早的使用到了局部连接/感受野的神经网络模型是Fukushima在1980年提出的神经认知机模型(Neocognitron),相关参考论文:

对于图像内容来说,相隔越近的像素区域的相关性越高。针对视觉识别任务,使用局部感受野,CNN网络第一个卷积层的神经元可以提取图像中的初级视觉特征(elementary visual features)比如有向边(oriented edges),端点(end-points)和角点(corners)。这些特征可被随后的卷积层进一步组合形成更高级的特征。

关于权重共享,即一个feature map上面的每个unit对输入图像使用相同的一组卷积核,可以提取到整张输入图像中任何位置的相同特征,即,一组卷积核负责检测一组特定的特征。同时使用多组不同的卷积核用于提取输入图像中的不同特征。另外,使用权重共享的策略可以大大减小模型参数数量,防止模型过拟合。

一旦图像的特征被提取,其精确的位置信息变得不再那么重要,重要的是不同特征之间大致的相对位置。比如,针对数字识别,一旦我们知道了图像的左上角位置水平方向包含一个端点,右上角位置有一个角点,在图像的下面部分有竖直方向的端点,我们可以辨别输入图像是数字7

保留图像特征的精细位置不仅对识别结果没有贡献,甚至有害。因为不同人写的同一个字符,其特征的精确位置往往不同,因此,故意弱化图像特征的精确位置信息是有益的,只需要保留图像特征的大致位置信息即可。一个方法是逐渐减小feature map的空间分辨率,具体可通过一个下采样层(sub-sampling layers)来弱化图像特征的精确位置信息。此外,下采样层也可以大大减小网络的模型参数。

下面是LeNet-5的网络结构图:


整个LeNet-5包含7个可训练的权重层:

为什么不将S3中的每一个feature map连接到C2中的所有特征层呢(经典的AlexNet、VGGNet等现代CNN的卷积层都是这样做的)?作者解释了当时这样设计的两个原因:

  1. 这种非完全的连接方式减小了一部分网络连接数量,也就是降低了模型的时间复杂度,以当时的硬件条件,这是很有必要的;
  2. 这种设计试图打破网络的对称性,S3层中不同的feature map被迫去提取C2层中不同的特征,因为它们获得了不同的输入;

可以看到,LeNet-5的网络结构和著名的AlexNet、VGGNet网络是一致的,都是首先使用一系列的卷积层+下采样层提取图像特征,最后通过全连接层/MLP作为分类器。

论文的第三部分构造了著名的MNIST数据集,通过实验比较了LeNet-5和其他当时主流的分类模型在MNIST测试集上的准确率,结果表明LeNet-5吊打所有的非CNN分类模型。

2. GTN

待续。。。

上一篇 下一篇

猜你喜欢

热点阅读