选择和评估模型

2018-09-15 本文已影响27人 Liam_ml

作为一名数据科学家，你最终的目的是要解决具体的业务问题：提高成交率，识别出欺诈交易，预测和管理各种贷款业务的损失，广告流量的欺诈，识别分享客户。不同的统计方法会用于解决不同的问题。

为了去的进展，你必须能够度量你模型的质量，并确保模型能够生产环境中正常的工作。总的来说，需要对模型进行评估（evaluation）和验证（validation）。需要对数据集进行划分，划分成为训练集合和测试集合。
比较关键的一点是：数据科学家需要熟悉不同任务的模型度量标准。

将业务问题映射到机器学习任务

数据科学家的任务是将业务问题映射到机器学习的方法之上，假设你是一名零售公司的数据科学家，你可能面对的问题是：

根据过去的交易情况，预测客户可能会购买哪些东西
识别欺诈性交易
确定各类产品或产品类别的价格弹性（销量与价格的关系）
当客户搜索一个商品的时候，确定最佳的产品呈现方式
客户细分：将客户行为相似的人合并到一起
关键词广告的股价：公司应该花多少钱在搜索引擎上购买待定的关键词广告
评估营销活动

你选择的模型对你应该使用什么样的方法有很大的影响。如果你想知道输入变量中的变动是如何影响结果的，那么你可能会使用回归的方法。如果你想知道那个因素驱动了大多数的分类，那么决策树可能是一个比较好的选择。

分类任务

朴素贝叶斯：朴素贝叶斯对具有很多输入变量的问题，含有大量值的类别型输入变量的问题以及文本分类问题尤其有效。朴素贝叶斯是解决产品分类问题优先尝试的方法
决策时：决策树本质上是if-then 的一系列规则。这很有用，特别是当我们需要规则的时候。决策树的一个扩展就是随即森领，随即森领往往会有很好的性能。
逻辑回归模型：这是非常常用的模型，简单，效果不错，并且很容易部署上线。逻辑回归在分控领域应用还是比较多的。
支持向量机，神经网络：当输入输出存在复杂关系的时候适合使用，但是难以理解
集成方法：bagging，adboost，xgboost等

打分问题

假设你的任务是帮助评估不同的市场营销活动是如何提高网站的有价值流量，那么目标不仅仅是吸引更多人进行访问网站，而且要吸引更多的客户进行消费：你需要关注许多因素：交易渠道，传播平台，目标人群，日期。

常见的打分的方法

线性回归：预测的数值输出的结果与输入变量的线性加法函数。即使实际情况不是线性的，线性回归也是一种非常有效的近似估计手段。
逻辑回归：预测一个概率，比如你想预测交易的欺诈，或者是某个类别的概率。这是一个很好的方法
另外，机器学习的方法也可以做回归预测

目标未知的方法，无监督的学习

这种方法是寻找数据的模式和关系

k均值聚类
关联规则
最近邻

问题到方法的映射

分类问题
1.识别垃圾邮件
2.根据商品目录对商品进行分类
1. 识别要违约的贷款
2. 将客户指派到某个客户累
回归问题
1. 预估广告的价值
2. 预测贷款违约的概率
3. 预测营销活动增加多少交易量或者销售量
关联规则
1. 识别出一起被购买的商品
2. 识别在一次会话中同时被访问的网页
3. 识别成功的网页和关键词广告的组合
聚类
1. 识别具有相同购买模式的客户群体
2. 识别在相同地区或者相同客户群里受欢迎的商品
3. 识别所有谈论的相似的新闻项
最近邻
1. 根据其他相似客户的购买情况为客户做产品推荐
2. 根据相似的商品过去拍卖的最终价格预测某拍卖商品的最终价格

映射是灵活的，一最终解决问题为目标。

模型评估

分类模型
打分模型
概率估计
排名
聚类

对大多数模型而言，我们只想计算一个或者两个总得分，从而判断模型是否有效，为了判断给定得分的高低，我们必须求助一些理想模型；空模型，模型的最低性能是什么样的。贝叶斯模型，模型的最高性能是怎样的。最优单变量模型，简单模型能达到什么效果。

空模型

分类问题：空模型返回最常见的类别
打分模型：返回所有结果的平均值

贝叶斯比例模型

是给定手头数据最完美的模型，只有当数据有矛盾的时候才会出错，就是一个输入x对应多个输出y

单变量模型

单变量模型只有一个变量的模型

模型评价

精度
混淆矩阵
准确率
ROC
KS
灵敏度
特异度

解释一下这些指标：

精度：不管是好人坏人，我都要预测准确
准确度：我希望我预测的坏人里面，大多数的确是坏人
召回率：我要抓住市面上90%的坏人
灵敏度：和召回率一致
特异度：识别出了市面上多少比例的好人

对于回归模型

残差
均方误差
R-平方

对于打分模型

双密度曲线
ROC
ks曲线
4.AIC

模型验证

交叉验证
显著性检验