2019-08-19

2019-08-19  本文已影响0人  AliceGYY

一、数据质量分析

脏数据:

缺失值

异常值

不一致的值

重要数据含有特殊符号的数据

1.异常值分析

(1)简单统计量分析,最常用的统计量是最大值和最小值,用来判断这个变量是否超过了合理的范围。

(2)3theta原则

(3)箱型图分析

2.一致性分析

3.2数据特征分析

3.2.1分布分析

1.定量数据的分布分析

对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行:

(1)求极差

(2)决定组距与组数

(3)决定分点

(4)列出频率分布表

(5)绘制频率分布直方图

遵循的主要原则如下:

(1)各组之间必须时互相排斥的

(2)各组必须将所有的数据包含在内

(3)各组的组宽最好相等

2.定性数据的分布分析

上一篇下一篇

猜你喜欢

热点阅读