2018-07-11笔记(2)Data Mining数据
2018-07-12 本文已影响0人
Haohao_95
【关键词:典型的数据问题,孤立点(Outlier),数据标准化(Normalizing Data),过拟合再验证。】
变量的类型
1)数字型(Numeric):连续型数字&离散型数字
2)选项型(Categorical):有序的,无序的
典型的Data Mining数据问题:
1)数据类型及属性庞大
2)数据不规整
3)数据出现孤立点
4)数据丢失
Detecting Outliers:探测孤立点
1)使用数据总结,可视化分析及稳健预测方法检测孤立点
2)检测到孤立点后,需要判断它是一个错误点还是一个事实极端点
3)有时,识别孤立点就是Data Mining项目的需求(如机场安检系统)
Handling Missing Data:处理部分缺失的数据:
1)直接忽略数据
2)使用合理的数据进行补充(如中位数)/仅使用没有缺失的数据部分
Normalizing Data:将数据标准化(主要涉及度量差异对数据表现的影响)
1)归一化方法:减去均值并除以标准差
2)将数据放在0-1的区间内
避免过拟合
出现过拟合的情况:
1)刚由训练集训练出来的模型
2)用同样的验证集去验证不同的模型(这样验证出最佳的模型其实时对同样的验证集最匹配的模型)
3)只根据验证集的结果选择模型
解决方法:
最终选择出来的模型还需要去test partition接收全新数据的检验来确定模型可用
Test Partition
出现过拟合状况
数据错误的指标(Error Metrics)
--Error(错误) = actual –predicted
--ME (平均错误)= Mean error
--RMSE(均方根误差:用于表现数据之间的差异) = Root-mean-squared error = Square root of average squared error
--MAE(平均绝对误差) = Mean absolute error MPE = Mean percentage error
--MAPE(平均绝对误差比例) = Mean absolute percentage error MAD(中位数绝对偏差) = Median absolute deviations from the median