机器学习的通用工作流程

2019-03-29 本文已影响0人庵下桃花仙

1 定义问题，收集数据集

搞清楚输入的数据是什么？要预测什么？（通常数据可用性是限制因素）
搞清楚面对的是什么类型的问题，便于选择模型架构、损失函数等
假设输出是可以根据输入进行预测的
输入数据中包含足够多的信息，足以学习输入和输出之间的关系
对于非平稳问题（服装推荐引擎）：
1、不断利用最新数据训练模型；
2、在一个问题是平稳的时间尺度上收集数据。
机器学习有个假设：未来的规律与过去相同，事实往往并非如此。

精度？准确率？召回率？客户保留率？衡量成功的指标指引我们选择损失函数。

问题	衡量成功的指标
平衡分类问题（每个类别可能性相同）	精度或接受者操作特征曲线下面积（area under the receiver operating characteristic curve, ROC AUC）
平衡问题	准确率和召回率
排序问题或多标签分类	平均准确率均值（mean average precision）

这个阶段的目的是获得统计功效（statistical power），开发一个小模型，打败随机基准（dumb baseline）。如MNIST中，任何精度大于0.1可以说具有统计功效。
还需要选择3个关键参数

1、添加更多的层
2、让每一层变的更大
3、训练更多的轮次

一旦开发出满意的模型配置，在所有可用数据（训练数据+验证数据）上训练模型，在测试集上最后评估一次。如果性能差，则意味验证流程不可靠，或者调参时验证数据上过拟合，选择更可靠的评估方法，如重复K折验证。