Keras学习（2）——Hello World

2018-12-04 本文已影响0人 Uitas

本篇将手把手教你实现第一个最简单的深度神经网络模型，基于多层感知器的二分类。

1. 基本概念

多层感知器：MLP，神经网络模型的一种，其它常见的还有卷积神经网络、循环神经网络等

2. 分步搭建

数据载入

本例采用机器学习经典数据集Iris，一个4维输入特征、3-class实数数据集。Scikit-Learn自带该数据集，无需单独下载。由于该数据集是3分类（class取值[0, 1, 2]），需要先将其处理成二分类，这里采用的方法为将非2的都替换为0，为2的设置为1，作为主类别。（注意，二分类对0、1敏感，请将主类别设置为1；多分类不存在此问题，0、1、2不存在主次之分）

from sklearn.datasets import load_iris
import numpy as np
data_set = load_iris()
x = data_set.data
y = data_set.target
y = np.where(y == 2, 1, 0)

定义模型

这里定义的模型具有一个输入层、一个隐藏层、一个输出层，神经元个数分别为4、8、1。其中输入层和隐藏层写到一起了，其实是两层，用input_dim指定输入层的神经元个数。输入层的神经元个数必须为输入特征维度，隐藏层的神经元个数可以随意定，输出层的神经元个数在二分类问题中固定为1。至于激活函数，如果暂时不想深入了解，那么记住隐藏层都用relu，输出层二分类用sigmoid，多分类用softmax，回归不设置激活函数。

from keras.models import Sequential
model = Sequential()
from keras.layers import Dense
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))

编译模型

模型编译时需要指定损失函数。损失函数，代表预测值与实际值的差距程度，损失函数越小，代表模型拟合程度越好，如果暂时不想深入了解，那么记住，二分类用binary_crossentropy，多分类用categorical_crossentropy，回归用mse（均方误差）。metrics字段指定度量模型的标准，分类问题一律用accuracy，回归用mse。optimizer字段指定优化器，即权重更新的方法，最最基本的优化器是SGD，新手不要用，需要自己指定很多参数；除了SGD，Keras提供了很多封装好的优化器，比如又考虑了一阶动量又考虑了二阶动量的adam，在adam基础上又加入局部最优动荡解决方案的nadam；搞不清楚没关系，无脑用adam。

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

训练模型

模型训练时需要指定周期epochs和批次大小batch_size。周期指的是训练过程中数据将被“轮”多少次，跟人看书一样，看一遍未必理解深入，需要一遍又一遍地看，尤其当训练数据较少的时候（轮的次数也不能太多，否则容易过拟合）。批次大小指的是一轮输入中，每次输入样本多少个，即参数更新的粒度，这里批次大小设置为10，表示每次读入10个样本，计算这10个样本的损失函数，更新权重，然后再读入10个样本。批次大小不能太大，一次性看完一本书人也消化不了，也不能太小，一次看一页，学到的东西会很散乱，对于一般的神经网络，没有太严格的要求，差不多就行；不过后面会遇到stateful 循环神经网络，那里的批次大小就不能随便设了。

model.fit(x, y, epochs=100, batch_size=10)

评估模型

在实际应用中，数据集是分为训练集、测试集的；用训练集训练，用测试集去评估训练的模型好坏（这里仅为演示基本的使用，所以没做拆分）；注意理解：在训练集上表现差那么模型肯定差，在训练集上表现好那么模型不一定好（有可能过拟合）。另外，评估的结果会有好多个值，我们取第二个，即accuracy即可。

result = model.evaluate(x, y)
print(result[1])

模型预测

在Keras中，模型预测函数有好几个，predict、predict_proba、predict_classes，前两个功能是一样的，都是输出概率值，第三个会输出类别标签，默认概率大于0.5认为是1。（如果有用过Scikit-Learn的童鞋会发现，Keras的预测函数与Scikit-Learn有很大的区别，Scikit-Learn里没有predict_classes，其predict方法会直接输出类别标签，而非概率值，想输出概率值得单独调用predict_proba；Scikit-Learn里的模型评估方法也不是evaluate，而是score；此外，两者要求的类别标签输入格式也不一样；后面在Keras模型包装部分会详细讲解这些区别）

proba = model.predict(x)
print(proba)
classes = model.predict_classes(x)
print(classes)

3. 完整代码

# /usr/bin/env python
from sklearn.datasets import load_iris
from keras.models import Sequential
from keras.layers import Dense
import numpy as np

data_set = load_iris()
x = data_set.data
y = data_set.target
y = np.where(y == 2, 1, 0)

model = Sequential()
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

model.fit(x, y, epochs=100, batch_size=10)

result = model.evaluate(x, y)
print(result[1])

proba = model.predict(x)
print(proba)

classes = model.predict_classes(x)
print(classes)

Keras学习（2）——Hello World

1. 基本概念

2. 分步搭建

数据载入

定义模型

编译模型

训练模型

评估模型

模型预测

3. 完整代码

猜你喜欢

热点阅读