机器学习就这几步

2018-12-28  本文已影响0人  陈亮2019

机器学习项目通常采用下面的步骤来实施:

1. 确定目标: 做所有事情的第一步,先搞清楚自己要达到的目标,然后以此为基线进行后续操作。

2.收集数据:根据目标收集数据集,确定数据集中的特征项,数据集规模,数据存储格式(CSV、parquet、No-SQL还是关系型数据库)。

3.预处理数据:去除数据中对目标无用的信息,根据要使用的模型可能需要对数据进行缩放,将数字型数据缩放到[0,1]或[-1,1]区间。在处理好的数据上进行探索性分析,建立对数据的感性认识。这一步主要使用可视化方式展示数据。

4.为模型准备数据:将数据复制一份出来,后续的操作都在复本上进行。将数据分为3份:训练集、验证集、测试集。训练集和验证集用来训练模型和确定超参数,测试集用来评估模型性能。

5.在数据集上训练模型,并对模型进行评估,选定性能最好的模型。 回归模型的评估指标有均方误差(\frac{1}{N} \sum_{i=1}^N(y_{i}-\hat{y_{i}} )^2 ), 平均绝对误差(\frac{1}{N} \sum_{i=1}^N|y_{i}-\hat{y_{i}} |),R^2(1-\frac{\frac{1}{N} \sum_{i=1}^N(y_{i}-\hat{y_{i}} )^2 }{\frac{1}{N} \sum_{i=1}^N(y_{i}-\bar{y} )^2 } ),其中\bar{y} =\frac{1}{N}\sum_{i=1}^Ny_{i}     。分类评估指标通常有精度(\frac{1}{N}\sum_{i=1}^N 1(\hat{y_{i}}=y_{i} )),二分类问题还可使用查准率,召回率。

6.在训练模型时需要对模型超参数进行调整,使模型性能达到最好。调整超参数通常采用用网格搜索,将需要调整的超参数的所有可能取值组合成笛卡尔积,对每组值分别计算模型评估指标,选择使模型性能最好的一组参数。

7.训练好模型后在测试集上评估其性能,如果能满足业务目标就将模型部署到运行环境,监控模型实际运行情况。

上述只是机器学习项目不可缺少的步骤,实际操作时每个步骤都还有大量的工作要做,不能一一书写,只能实践。

参考文献:

《机器学习实战》Aurelien Geron 著 王静源等译,机械工业出版社2018

上一篇下一篇

猜你喜欢

热点阅读