数据分析框架

2020-03-19  本文已影响0人  陈吻吻

数据质量分析

一、脏数据包括:

缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据。

1.缺失值处理:

删除、插补、不处理

插补方法:均值/中位数/众数、固定值、最临近插补、回归方法、插值法

2.异常值分析:

简单统计分析:描述性统计

3\sigma 原则:

正态分布假设下:P(|x-\mu |>3\sigma )\leq 0.003

不服从正态分布:也可以用远离平均值的多少倍标准差来描述。

箱型图分析:异常值:小于QL-1.5IQR或大于QU+1.5IQR.QL下四分位数,QU上四分位数,IQR四分位数间距(IQR=QU-QL)

二、统计量分析

1.集中趋势度量

(1)均值

(2)中位数

(3)众数

2.离中趋势度量

(1)极差=最大值-最小值

(2)标准差

(3)变异系数

CV=标准差/均值

(4)四分位数间距=    QU-QL

3.计算相关系数

(1)pearson相关系数

(2)spearman秩相关系数

pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布变量、分类或等级变量之间的关联性可采用spearman秩相关系数

二 数据预处理

1.数据清洗

(1)缺失值处理

(2)异常值处理

删除含有异常值记录;

视为缺失值;

平均值修正;

不处理。

2.数据集成

数据集成是指将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程

3.数据变换

(1)简单函数变化

(2)规范化

最小最大规范化

零-均值规范化

小数定标规范化

(3)连续属性离散化

上一篇 下一篇

猜你喜欢

热点阅读