2018-07-11笔记（2）Data Mining数据

2018-07-12 本文已影响0人 Haohao_95

【关键词：典型的数据问题，孤立点(Outlier)，数据标准化(Normalizing Data)，过拟合再验证。】

变量的类型

1）数字型（Numeric）：连续型数字&离散型数字
2）选项型（Categorical）：有序的，无序的

典型的Data Mining数据问题：

1）数据类型及属性庞大
2）数据不规整
3）数据出现孤立点
4）数据丢失

Detecting Outliers:探测孤立点

1）使用数据总结，可视化分析及稳健预测方法检测孤立点
2）检测到孤立点后，需要判断它是一个错误点还是一个事实极端点
3）有时，识别孤立点就是Data Mining项目的需求（如机场安检系统）

Handling Missing Data:处理部分缺失的数据：

1）直接忽略数据
2）使用合理的数据进行补充（如中位数)/仅使用没有缺失的数据部分

Normalizing Data:将数据标准化（主要涉及度量差异对数据表现的影响）

1）归一化方法：减去均值并除以标准差
2）将数据放在0-1的区间内

避免过拟合

出现过拟合的情况：

1）刚由训练集训练出来的模型
2）用同样的验证集去验证不同的模型（这样验证出最佳的模型其实时对同样的验证集最匹配的模型）
3）只根据验证集的结果选择模型

解决方法:

最终选择出来的模型还需要去test partition接收全新数据的检验来确定模型可用

Test Partition

出现过拟合状况

数据错误的指标(Error Metrics)

--Error（错误） = actual –predicted
--ME （平均错误）= Mean error
--RMSE（均方根误差：用于表现数据之间的差异） = Root-mean-squared error = Square root of average squared error
--MAE（平均绝对误差） = Mean absolute error MPE = Mean percentage error
--MAPE（平均绝对误差比例） = Mean absolute percentage error MAD（中位数绝对偏差） = Median absolute deviations from the median

Error Metrics