Inception-V3模型学习笔记

2018-12-12  本文已影响0人  qiufeng1ye

卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积或相关计算且具有深度结构的前馈网络神经(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。

卷积神经网络应用的核心领域之一为计算机视觉,Inception模型的提出促进了CNN的发展,目前Inception模型共有4个版本,本文选用V3作为对象进行学习。


图像识别

现代的图像识别模型具有数以百万计的参数,从头开始训练(Train from scratch)需要大量的样本数据以及消耗巨大的计算资源(几百个GPU),因此采用迁移学习的方式重训一个模型(Retrain a model)对于学习模型的成本较低。

ImageNet是一个巨大的可供视觉训练的图片库,利用Inception-V3作为已经训练好的模型,移出网络的最终分类层(Softmax),只训练CNN的倒数第二层——瓶颈层(Bottlenecks),这样只需要几千张图片和普通CPU就能完成,而且重训的模型准确性也不差。

一、数据下载

网络上公开下载的dataset主要是来自国外大学的一些网站:

牛津大学VGG - pets dataset

史坦福大学vision lab - dogs dataset

加州理工学院computational vision - birds dataset

除了下载图片文件还需要对应的标签文件,如果没有要自行整理。

二、环境准备

  1. 安装Anaconda

打开Anaconda官网的下载页,点击下载windows版本,选择左边的Python3版本安装包,如下图所示:

选择安装包

下载完成后按步骤完成安装即可,安装完成后点击Anaconda Navigator,成功打开下图的界面说明安装成功。由于总所周知的原因,建议将包管理镜像设置为国内源,点击界面上方的channel,将defaults删除,新增清华大学的源

切换镜像源
  1. 安装TensorFlow

打开Anaconda Navigator主界面,点击 Environments,按照下图所示安装TensorFlow。

查找安装包

三、重训模型

重训模型需要安装PIP包TensorFlow-Hub,在CMD执行以下命令:
pip install tensorflow-hub

在github上打开重训的源码,如何重训可以查看谷歌的官方教程,下面对源码处理的过程做解读:

1.create_module_graph

def create_module_graph(module_spec):
  height, width = hub.get_expected_image_size(module_spec)
  with tf.Graph().as_default() as graph:
    resized_input_tensor = tf.placeholder(tf.float32, [None, height, width, 3])
    m = hub.Module(module_spec)
    bottleneck_tensor = m(resized_input_tensor)
wants_quantization = any(node.op in FAKE_QUANT_OPS
                             for node in graph.as_graph_def().node)
  return graph, bottleneck_tensor, resized_input_tensor, wants_quantization

创建一个图并载入hub module,参数中的module_spec为在用的图像模型(本例中为Inception-V3)。

2.run_bottleneck_on_image

def run_bottleneck_on_image(sess, image_data, image_data_tensor,
                            decoded_image_tensor, resized_input_tensor,
                            bottleneck_tensor):
  resized_input_values = sess.run(decoded_image_tensor,
                                  {image_data_tensor: image_data})
  bottleneck_values = sess.run(bottleneck_tensor,
                               {resized_input_tensor: resized_input_values})
  bottleneck_values = np.squeeze(bottleneck_values)
  return bottleneck_values

提取图片的特征向量到瓶颈层,返回值中的bottleneck_values为提取的瓶颈层。

3.add_final_retrain_ops

在瓶颈层后增加一个最终分类层,用于识别重训的新图片。返回值中包含了建立最终分类层所需的信息。

执行retrain.py
打开Anaconda Navigator中的Spyder运行环境,将重训的源码复制到本机,修改源码中超参数的default值:

  parser.add_argument(
      '--saved_model_dir',
      type=str,
      default='F:/models/inception_v3',
      help='Where to save the exported graph.')

--saved_model_dir:生成模型存储的本地路径。

  parser.add_argument(
      '--image_dir',
      type=str,
      default='F:/dogs_images',
      help='Path to folders of labeled images.'

'--image_dir:下载dataset的本地路径。

修改完成后执行代码生成模型在本地,执行所花的时间根据机器配置而定,生成的文件如下:


重训后的模型

四、可视化过程

训练完成后,在CMD中输入以下命令:

tensorboard --logdir /tmp/retrain_logs

在浏览器中输入localhost:6006以查看TensorBoard,打开界面如下:

TensorBoard

可视化过程直观地显示录入重训过程,可以通过查看标量、图以及直方图理解、调试和优化训练过程。

五、测试

最后摇使用得到的模型测试一下效果,在网上随便下载一张重训对象的图片,加上测试图片的绝对路径参数--image后执行该测试源码,所得结果如下:

测试结果
从测试结果来看,本次识别的准确率还算不错,还可以再多测试几次。
上一篇下一篇

猜你喜欢

热点阅读