数据科学与R语言Cook RR语言:TCGA数据分析

选择和评估模型

2018-09-15  本文已影响27人  Liam_ml

作为一名数据科学家,你最终的目的是要解决具体的业务问题:提高成交率,识别出欺诈交易,预测和管理各种贷款业务的损失,广告流量的欺诈,识别分享客户。不同的统计方法会用于解决不同的问题。

为了去的进展,你必须能够度量你模型的质量,并确保模型能够生产环境中正常的工作。总的来说,需要对模型进行评估(evaluation)和验证(validation)。需要对数据集进行划分,划分成为训练集合和测试集合。
比较关键的一点是:数据科学家需要熟悉不同任务的模型度量标准。

将业务问题映射到机器学习任务

数据科学家的任务是将业务问题映射到机器学习的方法之上,假设你是一名零售公司的数据科学家,你可能面对的问题是:

你选择的模型对你应该使用什么样的方法有很大的影响。如果你想知道输入变量中的变动是如何影响结果的,那么你可能会使用回归的方法。如果你想知道那个因素驱动了大多数的分类,那么决策树可能是一个比较好的选择。

分类任务

打分问题

假设你的任务是帮助评估不同的市场营销活动是如何提高网站的有价值流量,那么目标不仅仅是吸引更多人进行访问网站,而且要吸引更多的客户进行消费:你需要关注许多因素:交易渠道,传播平台,目标人群,日期。

常见的打分的方法

目标未知的方法,无监督的学习

这种方法是寻找数据的模式和关系

问题到方法的映射

映射是灵活的,一最终解决问题为目标。

模型评估

对大多数模型而言,我们只想计算一个或者两个总得分,从而判断模型是否有效,为了判断给定得分的高低,我们必须求助一些理想模型;空模型,模型的最低性能是什么样的。贝叶斯模型,模型的最高性能是怎样的。最优单变量模型,简单模型能达到什么效果。

空模型

贝叶斯比例模型

是给定手头数据最完美的模型,只有当数据有矛盾的时候才会出错,就是一个输入x对应多个输出y

单变量模型

单变量模型只有一个变量的模型

模型评价

  1. 精度
  2. 混淆矩阵
  3. 准确率
  4. ROC
  5. KS
  6. 灵敏度
  7. 特异度

解释一下这些指标:

对于回归模型

  1. 残差
  2. 均方误差
  3. R-平方

对于打分模型

  1. 双密度曲线
  2. ROC
  3. ks曲线
    4.AIC

模型验证

交叉验证
显著性检验

上一篇下一篇

猜你喜欢

热点阅读