VGGNet -- 卷积神经网络
1、VGGNet出现解决的问题
VGG网络由著名的牛津大学视觉组(Visual Geometry Group)2014年提出,并取得了ILSVRC 2014比赛分类任务的第2名(GoogleNet第一名)和定位任务的第1名。同时VGGNet的拓展性很强,迁移到其他图片数据上的泛化性非常好。VGGNet的结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3x3)和池化尺寸(2x2)。到目前为止,VGGNet依然经常被用来提取图像特征,被广泛应用于视觉领域的各类任务。
VGG网络的主要创新是采用了小尺寸的卷积核。所有卷积层都使用3x3卷积核,并且卷积的步长为1。为了保证卷积后的图像大小不变,对图像进行了填充,四周各填充1个像素。所有池化层都采用2x2的核,步长为2。全连接层有3层,分别包括4096,4096,1000个节点。除了最后一个全连接层之外,所有层都采用了ReLU激活函数。
2、VGGNet介绍
VGGNet16 结构图 VGGNet 所有网络结构从上面的结构中我们可以看到,VGGNet的网络结构被分为11,13,16,19层。每层都包含了不同数量的卷积层(需要注意的是,每层卷积层之后都有激活层和池化层,只是由于长度限制没有在表中列出来),最后通过三个fc层来将我们的特征进行最后的向量化,最终得到一个1000维的向量,这个向量经过softmax之后,就会得到最终我们类别上的概率分布。而概率值最高的那个,就是我们所要分类的那个类别。
可以看出,VGGNet的网络结构没有了5 * 5卷积核的踪影,这是其网络的优化,通过两层连续的3x3卷积层可以达到一层5x5卷积层的感受域。
两层连续的3x3卷积层视野域,就是最下边的5 * 5。在保证了视野域一致的情况下,两个3x3卷积核有18个参数(不考虑偏置项),而一个5x5卷积核有25个参数,参数减少了 (25 - 18) / 25 = 28%。
从图中还可以看出,经过max pooling后,通道数目增加了一倍,这是弥补 max pooling 参数减少后信息缺失的问题。所以VGGNet网络较之前的网络层数更多,结构更深,模型参数量更大。而其优秀的成绩,也证明了更深的网络,能更好的提取特征。