数据挖掘1-走进数据科学

2020-03-22 本文已影响0人九桢

1. 概述

DRIP：Data Rich，Information Poor（现状）
DRIP指的是现实生活中普遍存在的“数据充沛而信息不足”的问题，原因在于对原始数据没有进行必要的处理和分析，没有发挥出其应有的价值。

学科知识

数据是定量或定性的属性值
类型：连续型，离散型，二进制；物理，逻辑结构；
问题：数据类型转化；错误与变体corruption

大数据的定义为3V, 即容量大，速度快，类型多
扩展：5V

Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.

应用：
城市安全识别犯罪模式；健康医疗识别基因进行个性化治疗；城市规划；零售业精准销售、情感分析；社交网络发现有影响力的人；寻找最美丽的女性人脸量化

2. 从数据到智能

Open Data主要靠政府公开，公开数据有两个层面含义，一个是法律层面允许公开，第二是技术层面公开即容易获取容易下载。

数据挖掘的目的是要从海量的充满杂质的数据中提取interesting、useful、hidden的信息，必须发现不为人知的规律，而且能找到应用场景落地产生价值。

数据挖掘需要人类的干预：领域知识；收集和预处理。

数据库

ETL用来描述将数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端的过程。在数据仓库的构建中，ETL贯穿于项目始终，它是整个数据仓库的生命线，包括了数据清洗、整合、转换、加载等各个过程。

从数据到智能：
数据是最底层的东西，信息是经过处理的数据，因为数据本身可能有很多冗余和错误，信息经过数据挖掘之后就形成知识，知识结合业务领域模型就能帮助人们去做决策了。

Data数据库→Information预处理→Knowledge数据挖掘→Decision Support决策模型

数据挖掘过程: Define problem→Data collection→Data preparation→Data modelling→Interpretation/Evaluation→Implement/Deploy model

3. 分类问题

有监督：有学习集

定义
根据一个或多个特征（称为变量）的量化信息和先前标记的项目的训练集，将新的项目分组的过程。
Given a training set {{x1, y1},...{xn, yn}}, produce a classifier(function) that maps any unknown object x to its class label y.

常见算法

Decision Trees 决策树
K-Nearest Neighbours K近邻
Neural Networks 神经网络
Support Vector Machines 支持向量机

常见问题

分类界限过拟合overfitting问题
混淆矩阵Confusion Matrix：衡量分类器分类的准确程度，可分为二分类三分类等

a. 真阳性(True Positive, TP): 真实值和预测值都是正例
b. 真阴性(True Negative, TN): 真实值和预测值都是负例
c. 假阳性(False Positive, FP): 真实值为负例而预测值为正例
d. 假阴性(False Negative, FN): 真实值为正例而预测值为负例

衍生更多评估目标：
a. 正确率(Accuracy): 正确分类的样本比例 (TP+TN)/Total
b. 错误率(Error Rate): 错误分类的样本比例 (FP+FN)/Total
c. 精准率(Precision): 实际正例在预测正例中的占比 TP/(TP+FP)
d. 真阳率(Ture Positive Rate, TPR): 也叫召回率(Recall), 正确预测的正例在实际正例中的占比 TP/(TP+FN)
e. 真阴率(True Negative Rate, TNR): 正确预测的负例在实际负例中的占比 TN/(TN+FP)
f. 假阳率(False Positive Rate): 错误预测为正例在实际正例中的占比 FP/(TP+FN)
g. 假阴率(False Negative Rate, FNR): 错误预测为负例在实际负例中的占比 FN/(TN+FP)

数据间的关系
例子：横轴身高，两个正态分布，左女人，右男人，竖线是阈值

召回率上升而精准率是负相关关系
现在用真阳性TP和假阳性FP组合成一个指标绘制图形，横轴是FP, 纵轴是TP, 会得到一个ROC(Receiver Operating Characteristic)曲线，曲线下方的面积为AUC(Area Under the Curve)

ROC

为正例预测设定一个阈值(比如概率大于0.7时判断为正例)就可以得到一组(FP, TP)的坐标，阈值最大时，对应坐标点为(0,0),阈值最小时，对应坐标点(1,1)。

所以ROC可以用来确定划定正样本的概率边界选择什么阈值比较合适，而且它有一个很好的特性，当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。当x=y的时候就是随机预测五五分的概率了，这条线是左下角到右上角的连线，所以AUC的取值范围在0.5到1之间，AUC越大，分类器效果越好。

cost-sensitive代价敏感问题
犯错误的代价：
在实际应用场景中，要特别注意不同场景下TP和TN的影响力会不一样，是把一封正常邮件错判为垃圾邮件从而放进垃圾箱影响大还是一封垃圾邮件未能放进垃圾箱影响大? 显然前者。是把一个发烧病人判断成癌症患者影响大还是把一个癌症患者诊断为发烧影响大?显然后者
lift analysis评价模型实际使用的效果
提升度：对群体进行评分，抓住潜在客户并排序，提升效率

题目：假设目标客户占人群的5%，现根据用户模型进行打分排序，取1000名潜在客户中排名前10%的客户，发现其中包含25名目标客户，问此模型在10%处的提升度是多少？
答案：采用模型法在10%采样条件下发现25名目标客户，占全体目标客户总数的50%，故提升度=50%/10%=5

4. 聚类Clustering

无监督：没有学习集
Clustering is the assignment of a set of observations into subsets (called clusters) so that observations in the same cluster are similar in some sense

相似性/距离的度量

Euclidean Distance 欧氏距离
Manhattan Distance 曼哈顿距离
Mahalanobis Distance 马氏距离

算法

K-Means k-均值
Sequential Leader
Affinity Propagation

分类

Hierarchical 层次聚类：对象总是和与之临近的对象相关性更强，计算每个对象和其他对象之间的距离，不断将距离最短的两个对象合并成一类，直到所有的对象合并成单个类别为止。
Partition 划分聚类：让类内的对象都足够近，类间的对象都足够远。代表算法就是K-Means的实现，适用于numerical类型数据，主要发现圆形或者球星簇，但需要手工输入类目数，对初始值设置, 噪音、离群值非常敏感。
Density-based 密度聚类：定一个距离半径最少有多少个对象，然后把可以达到的对象都连起来判定为同类，简单的说就是画圈，需要定义两个参数，圈的最大半径和圈内最少容纳的对象数量。DBSCAN通过优先对高密度(high density)进行搜索，然后根据高密度的特点设置参数
Model-based 模型聚类：指基于概念模型或者神经网络模型的方法，同一类的数据属于同一种概率分布。最典型方法就是高斯混合模型(GMM，Gaussian Mixture Models)
Association Rule 关联规则：买面包会一起买牛奶
Regression 回归：拟合曲线-多项式拟合曲线

5. 数据可视化

关系图，可解释性
工具的运用

6. 数据预处理

GIGO：garbage in garbage out

典型问题

Missing Attribute Values 缺少属性值
Different Coding/Naming Schemes 不同的编码/命名方案
Infeasible Values 不可行值
Inconsistent Data 不一致的数据
Outliers 异常值

数据质量

Accuracy 准确性
Completeness 完整性
Consistency 一致性
Interpretability 可解释性
Credibility 可靠性
Timeliness 及时性

7. 隐私保护和并行计算

两难的数据
保护隐私的调查方法
设计两道相反题目，答者有p概率回答1题目，有1-p概率回答2题目，采访者不知道他回答哪个问题
数据+算法+计算平台（云计算）

8. 迷雾重重

讲了一些有趣易错的例子，看数据不能以偏概全，必须要从不同层次不同角度综合考虑得出客观真实的结论。

量化交易：处理人性不够理性的缺点，分析公司，不要去预测股价
彩票：随机的，没有规律
数据内在关系：数据间分组
数据的相关性：身高与CEO，人类心理选择高个子（男女）
幸存者偏差：二战轰炸机
忽视时间因素

学习感受：内容比较简单，好多东西都是之前学过的，分类和聚类在学数学建模和机器学习学过，第二专业的毕业论文就是分类问题，用上了混淆矩阵，这门课大概是个补充吧，也不是特别难。

相关学习资料：
TED
政府数据公开
 司法实践的数据分析