从Keras开始掌握深度学习-5 优化你的模型

2018-10-31 本文已影响19人养薛定谔的猫

前言

在第3篇教程里面，我们所编写的CNN进行分类的模型准确度达到了80%。对于一个分类模型来说，80%的准确率不算很低了。但是，在现有的情况下，我们应该如何优化这个模型呢？
在从零开始机器学习的系列里面，理论上的优化模型可以修改超参数。同样，在Keras的这个CNN程序中，我们可以指定其他的优化器（这里用的是ADAM）。修改卷积核大小、步长、修改激活函数的类型、加入/取消全连接层、修改每个层有多少神经元也是可行的方法。
面对这么多可以修改的地方，修改现有的程序是必定需要做的。

修改现有的程序

首先确定要修改的内容。全连接的层数、层的大小和卷积层的层数。
全连接层可以有0、1、2层；卷积层可以有1、2、3或更多层；然后就是每层的大小可以是32、64或128...
通过以下的代码来确定这些排列组合可以得到多少模型：

dense_layers = [0, 1, 2]
layer_sizes = [32, 64, 128]
conv_layers = [1, 2, 3]

for dense_layer in dense_layers:
    for layer_size in layer_sizes:
        for conv_layer in conv_layers:
            NAME = "{}-conv-{}-nodes-{}-dense-{}".format(conv_layer, layer_size, dense_layer, int(time.time()))
            print(NAME)

运行上述Python代码，在控制台的输出如下：

1-conv-32-nodes-0-dense-1540975261
2-conv-32-nodes-0-dense-1540975261
3-conv-32-nodes-0-dense-1540975261
1-conv-64-nodes-0-dense-1540975261
2-conv-64-nodes-0-dense-1540975261
3-conv-64-nodes-0-dense-1540975261
1-conv-128-nodes-0-dense-1540975261
2-conv-128-nodes-0-dense-1540975261
3-conv-128-nodes-0-dense-1540975261
1-conv-32-nodes-1-dense-1540975261
2-conv-32-nodes-1-dense-1540975261
3-conv-32-nodes-1-dense-1540975261
1-conv-64-nodes-1-dense-1540975261
2-conv-64-nodes-1-dense-1540975261
3-conv-64-nodes-1-dense-1540975261
1-conv-128-nodes-1-dense-1540975261
2-conv-128-nodes-1-dense-1540975261
3-conv-128-nodes-1-dense-1540975261
1-conv-32-nodes-2-dense-1540975261
2-conv-32-nodes-2-dense-1540975261
3-conv-32-nodes-2-dense-1540975261
1-conv-64-nodes-2-dense-1540975261
2-conv-64-nodes-2-dense-1540975261
3-conv-64-nodes-2-dense-1540975261
1-conv-128-nodes-2-dense-1540975261
2-conv-128-nodes-2-dense-1540975261
3-conv-128-nodes-2-dense-1540975261

也就是说，通过排列组合可以得到27种模型。
修改第四讲的代码，将上述代码加入程序，得到如下：

import time
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Activation, Flatten, Conv2D, MaxPooling2D
import pickle
from tensorflow.keras.callbacks import TensorBoard
import time

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.33)
sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))

X = pickle.load(open("X.pickle","rb"))
y = pickle.load(open("y.pickle","rb"))

# normalize data image in grayscale is from 0-255
X = X/255.0

# train multiple models
dense_layers = [0, 1, 2]
layer_sizes = [32, 64, 128]
conv_layers = [1, 2, 3]

for dense_layer in dense_layers:
    for layer_size in layer_sizes:
        for conv_layer in conv_layers:
            model_name = "{}-conv-{}-nodes-{}-dense-{}".format(conv_layer, layer_size, dense_layer, int(time.time()))
            tensorboard = TensorBoard(log_dir='logs/{}'.format(model_name))
            print(model_name)
            model = Sequential()

            model.add(Conv2D(layer_size, (3, 3), input_shape = X.shape[1:]))
            model.add(Activation("relu"))
            model.add(MaxPooling2D(pool_size=(2,2)))

            for l in range(conv_layer-1):
                model.add(Conv2D(layer_size, (3, 3)))
                model.add(Activation("relu"))
                model.add(MaxPooling2D(pool_size=(2,2)))

            model.add(Flatten()) #Conv Layer是2D， DenseLayer是1D的 所以需要将ConvLayer压平
            for l in range(dense_layer):
                model.add(Dense(layer_size))
                model.add(Activation("relu"))

            model.add(Dense(1))
            model.add(Activation("sigmoid"))

            model.compile(loss="binary_crossentropy",
                         optimizer="adam",
                         metrics=["accuracy"]) # 可以使用categorical_crossentropy作为损失函数

            model.fit(X, y, batch_size =32, epochs=20, validation_split=0.1, callbacks=[tensorboard])

在控制台运行，一共需要训练27个模型，因此在训练之前，最好将logs的目录下已经存在的日志清空。这样会方便我们观察这一讲中的不同参数对于模型的影响。

使用TensorBoard观察模型

和上一讲一样，使用tensorboard --logdir=logs/打开TensorBoard。

TensorBoard观察所有模型
同样，我们的关注点应该放在验证集的准确率和损失上面。
在关注的区域拖动鼠标，画出一个矩形，则图标会放大到这个矩形关注的范围内。

放大折线图
通过观察，验证集损失表现最好的是3个卷积层-32个节点-0个全连接层的模型（3-32-0红色）；其次是2个卷积层-32个节点-0个卷积层的模型（2-32-0蓝色）；然后是2个卷积层-64个节点和-0个全连接层的模型（2-64-0粉色）。
同样再来到验证集准确率的折线图，找到这几个折线图中最高的几个模型。
通过分析，几个模型中3个卷积层的准确率最高，且没有全连接层的准确率最高且损失最低。
让我们再加入一个3卷积-1个全连接层的模型，并且只将全连接层的大小设为512。
此处增加全连接层的大小是为了与现有的模型进行对比。增加了全连接层之后，模型的大小会成倍增加，训练速度增加了一倍。
再次回到TensorBoard，取消选择所有的除了3个卷积层和没有全连接层以外的所有模型。通过对比，可以看到512大小的全连接层在训练集上面的准确度比较高，但是到了验证集却比较低。这也就说明了模型存在了过拟合。
综上，对于目前的数据集和模型来说。3个卷积层、0个全连接层是最佳的选择。

从Keras开始掌握深度学习-5 优化你的模型

前言

修改现有的程序

使用TensorBoard观察模型

猜你喜欢

热点阅读