数据挖掘1-走进数据科学

2020-03-22  本文已影响0人  九桢

1. 概述

DRIP:Data Rich,Information Poor(现状)
DRIP指的是现实生活中普遍存在的“数据充沛而信息不足”的问题,原因在于对原始数据没有进行必要的处理和分析,没有发挥出其应有的价值。

学科知识

数据定量或定性的属性值
类型:连续型,离散型,二进制;物理,逻辑结构;
问题:数据类型转化;错误与变体corruption

大数据的定义为3V, 即容量大,速度快,类型多
扩展:5V

Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.

应用:
城市安全识别犯罪模式;健康医疗识别基因进行个性化治疗;城市规划;零售业精准销售、情感分析;社交网络发现有影响力的人;寻找最美丽的女性人脸量化

2. 从数据到智能

Open Data主要靠政府公开,公开数据有两个层面含义,一个是法律层面允许公开,第二是技术层面公开即容易获取容易下载。

数据挖掘的目的是要从海量的充满杂质的数据中提取interesting、useful、hidden的信息,必须发现不为人知的规律,而且能找到应用场景落地产生价值。

数据挖掘需要人类的干预:领域知识;收集和预处理。

数据库

ETL用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了数据清洗、整合、转换、加载等各个过程。

从数据到智能:
数据是最底层的东西,信息是经过处理的数据,因为数据本身可能有很多冗余和错误,信息经过数据挖掘之后就形成知识,知识结合业务领域模型就能帮助人们去做决策了。

Data数据库→Information预处理→Knowledge数据挖掘→Decision Support决策模型

数据挖掘过程: Define problem→Data collection→Data preparation→Data modelling→Interpretation/Evaluation→Implement/Deploy model

3. 分类问题

有监督:有学习集

定义
根据一个或多个特征(称为变量)的量化信息和先前标记的项目的训练集,将新的项目分组的过程。
Given a training set {{x1, y1},...{xn, yn}}, produce a classifier(function) that maps any unknown object x to its class label y.

常见算法

常见问题

a. 真阳性(True Positive, TP): 真实值和预测值都是正例
b. 真阴性(True Negative, TN): 真实值和预测值都是负例
c. 假阳性(False Positive, FP): 真实值为负例而预测值为正例
d. 假阴性(False Negative, FN): 真实值为正例而预测值为负例

衍生更多评估目标:
a. 正确率(Accuracy): 正确分类的样本比例 (TP+TN)/Total
b. 错误率(Error Rate): 错误分类的样本比例 (FP+FN)/Total
c. 精准率(Precision): 实际正例在预测正例中的占比 TP/(TP+FP)
d. 真阳率(Ture Positive Rate, TPR): 也叫召回率(Recall), 正确预测的正例在实际正例中的占比 TP/(TP+FN)
e. 真阴率(True Negative Rate, TNR): 正确预测的负例在实际负例中的占比 TN/(TN+FP)
f. 假阳率(False Positive Rate): 错误预测为正例在实际正例中的占比 FP/(TP+FN)
g. 假阴率(False Negative Rate, FNR): 错误预测为负例在实际负例中的占比 FN/(TN+FP)

数据间的关系
例子:横轴身高,两个正态分布,左女人,右男人,竖线是阈值


  1. 召回率上升而精准率是负相关关系
  2. 现在用真阳性TP和假阳性FP组合成一个指标绘制图形,横轴是FP, 纵轴是TP, 会得到一个ROC(Receiver Operating Characteristic)曲线,曲线下方的面积为AUC(Area Under the Curve)


    ROC

为正例预测设定一个阈值(比如概率大于0.7时判断为正例)就可以得到一组(FP, TP)的坐标,阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

所以ROC可以用来确定划定正样本的概率边界选择什么阈值比较合适,而且它有一个很好的特性,当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。当x=y的时候就是随机预测五五分的概率了,这条线是左下角到右上角的连线,所以AUC的取值范围在0.5到1之间,AUC越大,分类器效果越好。

题目:假设目标客户占人群的5%,现根据用户模型进行打分排序,取1000名潜在客户中排名前10%的客户,发现其中包含25名目标客户,问此模型在10%处的提升度是多少?
答案:采用模型法在10%采样条件下发现25名目标客户,占全体目标客户总数的50%,故提升度=50%/10%=5

4. 聚类Clustering

无监督:没有学习集
Clustering is the assignment of a set of observations into subsets (called clusters) so that observations in the same cluster are similar in some sense

相似性/距离的度量

算法

分类

5. 数据可视化

关系图,可解释性
工具的运用

6. 数据预处理

GIGO:garbage in garbage out

典型问题

数据质量

7. 隐私保护和并行计算

8. 迷雾重重

讲了一些有趣易错的例子,看数据不能以偏概全,必须要从不同层次不同角度综合考虑得出客观真实的结论。

学习感受:内容比较简单,好多东西都是之前学过的,分类和聚类在学数学建模和机器学习学过,第二专业的毕业论文就是分类问题,用上了混淆矩阵,这门课大概是个补充吧,也不是特别难。

相关学习资料:
TED
政府数据公开
司法实践的数据分析

上一篇下一篇

猜你喜欢

热点阅读