2018-07-11笔记(2)Data Mining数据

2018-07-12  本文已影响0人  Haohao_95

【关键词:典型的数据问题,孤立点(Outlier),数据标准化(Normalizing Data),过拟合再验证。】

变量的类型

1)数字型(Numeric):连续型数字&离散型数字
2)选项型(Categorical):有序的,无序的

典型的Data Mining数据问题:

1)数据类型及属性庞大
2)数据不规整
3)数据出现孤立点
4)数据丢失

Detecting Outliers:探测孤立点

1)使用数据总结,可视化分析及稳健预测方法检测孤立点
2)检测到孤立点后,需要判断它是一个错误点还是一个事实极端点
3)有时,识别孤立点就是Data Mining项目的需求(如机场安检系统)

Handling Missing Data:处理部分缺失的数据:

1)直接忽略数据
2)使用合理的数据进行补充(如中位数)/仅使用没有缺失的数据部分

Normalizing Data:将数据标准化(主要涉及度量差异对数据表现的影响)

1)归一化方法:减去均值并除以标准差
2)将数据放在0-1的区间内

避免过拟合

出现过拟合的情况:

1)刚由训练集训练出来的模型
2)用同样的验证集去验证不同的模型(这样验证出最佳的模型其实时对同样的验证集最匹配的模型)
3)只根据验证集的结果选择模型

解决方法:

最终选择出来的模型还需要去test partition接收全新数据的检验来确定模型可用


Test Partition
出现过拟合状况

数据错误的指标(Error Metrics)

--Error(错误) = actual –predicted
--ME (平均错误)= Mean error
--RMSE(均方根误差:用于表现数据之间的差异) = Root-mean-squared error = Square root of average squared error
--MAE(平均绝对误差) = Mean absolute error MPE = Mean percentage error
--MAPE(平均绝对误差比例) = Mean absolute percentage error MAD(中位数绝对偏差) = Median absolute deviations from the median

Error Metrics
上一篇下一篇

猜你喜欢

热点阅读