2019-08-19
2019-08-19 本文已影响0人
AliceGYY
一、数据质量分析
脏数据:
缺失值
异常值
不一致的值
重要数据含有特殊符号的数据
1.异常值分析
(1)简单统计量分析,最常用的统计量是最大值和最小值,用来判断这个变量是否超过了合理的范围。
(2)3theta原则
(3)箱型图分析
2.一致性分析
3.2数据特征分析
3.2.1分布分析
1.定量数据的分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行:
(1)求极差
(2)决定组距与组数
(3)决定分点
(4)列出频率分布表
(5)绘制频率分布直方图
遵循的主要原则如下:
(1)各组之间必须时互相排斥的
(2)各组必须将所有的数据包含在内
(3)各组的组宽最好相等
2.定性数据的分布分析