美团机器学习实践第一章-问题建模总结

2019-01-16 本文已影响631人文哥的学习日记

思维导图如下：

机器学习解决问题的通用流程

问题建模-特种工程-模型选择-模型融合。

问题建模应包含三方面的内容：评估指标、样本选择、交叉验证。

评估指标很多，我们应该选择一个跟业务指标波动一致的评估指标，这样通过观察评估指标就能判断模型效果，可以大大提高模型迭代效率。

通常，线下使用的是机器学习评估指标，线上使用的是业务指标。为此，在一个新的问题的开始阶段，都会进行多轮模型迭代，来探索与线上业务指标一致的线下指标，尽可能使线下指标的变化趋势跟线上指标一致。

评估指标根据任务类型分类，可分为分类指标、回归指标、聚类指标和排序指标等。

精确率、召回率

F1值

准确率与错误率

ROC曲线与AUC

对数损失logloss

平均绝对误差MAE

平均绝对百分误差MAPE

均方根误差RMSE

均方根对数误差RMSLE

RMSLE对预测值偏小的样本惩罚比对预测值偏大的样本惩罚更大。

平均准确率均值MAP

书中这里的公式是有问题的，我认为分母应该是正确样本的数量。

归一化贴现累计收益NDCG

样本选择是数据预处理中一个非常重要的环节，主要从海量数据中识别和选择相关性高的数据作为模型输入。最理想的样本选择结果是，选择了最少量的训练集S，而模型的效果不会变差。样本选择的好处主要有：减小模型的运算时间、去除相关性低的数据、去除噪声数据。

样本选择有很多方法：数据去噪、采样、原型选择、训练集选择。

在离线环节，需要对模型进行评估，根据评估指标选出最佳模型。交叉验证是很好的方法。

交叉验证的主要方法有留出法、K折交叉验证和自助法Bootstrapping。