Inception-V3模型学习笔记
卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积或相关计算且具有深度结构的前馈网络神经(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。
卷积神经网络应用的核心领域之一为计算机视觉,Inception模型的提出促进了CNN的发展,目前Inception模型共有4个版本,本文选用V3作为对象进行学习。
图像识别
现代的图像识别模型具有数以百万计的参数,从头开始训练(Train from scratch)需要大量的样本数据以及消耗巨大的计算资源(几百个GPU),因此采用迁移学习的方式重训一个模型(Retrain a model)对于学习模型的成本较低。
ImageNet是一个巨大的可供视觉训练的图片库,利用Inception-V3作为已经训练好的模型,移出网络的最终分类层(Softmax),只训练CNN的倒数第二层——瓶颈层(Bottlenecks),这样只需要几千张图片和普通CPU就能完成,而且重训的模型准确性也不差。
一、数据下载
网络上公开下载的dataset主要是来自国外大学的一些网站:
史坦福大学vision lab - dogs dataset
加州理工学院computational vision - birds dataset
除了下载图片文件还需要对应的标签文件,如果没有要自行整理。
二、环境准备
- 安装Anaconda
打开Anaconda官网的下载页,点击下载windows版本,选择左边的Python3版本安装包,如下图所示:
下载完成后按步骤完成安装即可,安装完成后点击Anaconda Navigator,成功打开下图的界面说明安装成功。由于总所周知的原因,建议将包管理镜像设置为国内源,点击界面上方的channel,将defaults删除,新增清华大学的源。
- 安装TensorFlow
打开Anaconda Navigator主界面,点击 Environments,按照下图所示安装TensorFlow。
查找安装包三、重训模型
重训模型需要安装PIP包TensorFlow-Hub,在CMD执行以下命令:
pip install tensorflow-hub
在github上打开重训的源码,如何重训可以查看谷歌的官方教程,下面对源码处理的过程做解读:
1.create_module_graph
def create_module_graph(module_spec):
height, width = hub.get_expected_image_size(module_spec)
with tf.Graph().as_default() as graph:
resized_input_tensor = tf.placeholder(tf.float32, [None, height, width, 3])
m = hub.Module(module_spec)
bottleneck_tensor = m(resized_input_tensor)
wants_quantization = any(node.op in FAKE_QUANT_OPS
for node in graph.as_graph_def().node)
return graph, bottleneck_tensor, resized_input_tensor, wants_quantization
创建一个图并载入hub module,参数中的module_spec为在用的图像模型(本例中为Inception-V3)。
2.run_bottleneck_on_image
def run_bottleneck_on_image(sess, image_data, image_data_tensor,
decoded_image_tensor, resized_input_tensor,
bottleneck_tensor):
resized_input_values = sess.run(decoded_image_tensor,
{image_data_tensor: image_data})
bottleneck_values = sess.run(bottleneck_tensor,
{resized_input_tensor: resized_input_values})
bottleneck_values = np.squeeze(bottleneck_values)
return bottleneck_values
提取图片的特征向量到瓶颈层,返回值中的bottleneck_values为提取的瓶颈层。
3.add_final_retrain_ops
在瓶颈层后增加一个最终分类层,用于识别重训的新图片。返回值中包含了建立最终分类层所需的信息。
执行retrain.py
打开Anaconda Navigator中的Spyder运行环境,将重训的源码复制到本机,修改源码中超参数的default值:
parser.add_argument(
'--saved_model_dir',
type=str,
default='F:/models/inception_v3',
help='Where to save the exported graph.')
--saved_model_dir:生成模型存储的本地路径。
parser.add_argument(
'--image_dir',
type=str,
default='F:/dogs_images',
help='Path to folders of labeled images.'
'--image_dir:下载dataset的本地路径。
修改完成后执行代码生成模型在本地,执行所花的时间根据机器配置而定,生成的文件如下:
重训后的模型
四、可视化过程
训练完成后,在CMD中输入以下命令:
tensorboard --logdir /tmp/retrain_logs
在浏览器中输入localhost:6006以查看TensorBoard,打开界面如下:
可视化过程直观地显示录入重训过程,可以通过查看标量、图以及直方图理解、调试和优化训练过程。
五、测试
最后摇使用得到的模型测试一下效果,在网上随便下载一张重训对象的图片,加上测试图片的绝对路径参数--image后执行该测试源码,所得结果如下:
从测试结果来看,本次识别的准确率还算不错,还可以再多测试几次。