TensorFlow工具快速入门教程8-2 线性回归练习基于pa

2019-01-02 本文已影响19人 python测试开发

简介

波士顿数据集，其中包括以下变量

CRIM	城镇人均犯罪率
zn	占地面积超过25,000平方尺的住宅用地比例
indus	每个城镇非零售业务占的比例。
nox	一氧化氮浓度
rm	每栋住宅的平均房间数量
age	1940年以前建造的自住单位比例
dis	到波士顿五个就业中心的加权距离
tax	每10,000美元全价物业税率
ptratio	城镇的师生比例
medv	自住房屋的中位数, 单位为千美元

您将创建三个不同的数据集：

数据集	目的	形状
Training	训练模型并获得权重	400,10
Evaluation	在看不见的数据上的评估模型性能	100,10
Predict	使用该模型预测新数据的房屋价值	6,10

目标是使用数据集的特征来预测房屋的价值。

在本教程的第二部分中，您将学习如何使用TensorFlow以三种不同的方式导入数据：

pandas
Numpy
只有TF

他们都提供相同的结果。

您将学习如何使用高级API构建，训练评估线性回归模型。如果使用的是低级API，则必须手动定义：损失函数；优化：梯度下降；矩阵乘法；图和张量。这对于初学者来说是乏味且复杂的。

数据集下载：https://itbooks.pipipan.com/fs/18113597-328521226

pandas

Tensorflow目前提供6个预建estimator，其中3个用于分类任务，3个用于回归任务：

回归
- DNNRegressor
- LinearRegressor
- DNNLineaCombinedRegressor
分类
- DNNClassifier
- LinearClassifier
- DNNLineaCombinedClassifier

参考资料

该函数需要两个参数：

feature_columns：包含要包含在模型中的变量
model_dir：存储图形的路径，保存模型参数等

使用TensorFlow的棘手部分是为模型提供信息。 Tensorflow旨在用于并行计算和非常大的数据集。由于机器资源的限制，不可能同时为所有数据提供模型。为此，您需要每次都提供一批。请注意，我们正在谈论拥有数百万或更多记录的庞大数据集。如果不添加批处理，最终会出现内存错误。

当模型看到所有数据时，它就完成了一个epoch 。epoch定义了您希望模型查看数据的次数。最好将此步骤设置为None，并让模型执行迭代次数。

要添加的第二个信息是，如果要在每次迭代之前对数据进行混洗。在训练期间，重要的是对数据进行混洗，以便模型不会学习数据集的特定模式。如果模型了解数据的基础模式的细节，则难以概括对未见数据的预测。这称为overfitting 。该模型在训练数据上表现良好，但无法正确预测未见数据。

TensorFlow使这两个步骤变得容易。当数据进入管道时，它知道需要多少观察（批处理）以及是否必须对数据进行混洗。

要指示Tensorflow如何提供模型，可以使用函数pandas_input_fn。该对象需要5个参数：

x：要素数据
y：标签数据
batch_size：batch。默认为128
num_epoch：纪元的数量，默认为1
shuffle：随机播放或不播放数据。默认情况下，无

评估模型性能的常用方法是：

训练模型
在不同的数据集中评估模型
做预测

代码参见：　https://github.com/china-testing/python-api-tesing/blob/master/practices/ts/lr_pd.py

Loss: 1693.105225
count    400.000000
mean      22.625500
std        9.572593
min        5.000000
25%       16.600000
50%       21.400000
75%       25.025000
max       50.000000
Name: medv, dtype: float64
Predictions: [array([35.063747], dtype=float32), array([19.22251], dtype=float32), array([23.879816], dtype=float32), array([34.587215], dtype=float32), array([13.386072], dtype=float32), array([19.621191], dtype=float32)]

后面的Predictions是预测的房子价格。

TensorFlow工具快速入门教程8-2 线性回归练习基于pa

简介

pandas

参考资料

猜你喜欢

热点阅读