2. 数据探索

2018-03-27  本文已影响0人  何大炮

数据质量分析

检查数据中是否有脏数据:

  1. 缺失值
    有3个原因造成了这个情况:暂时无法取得;被遗漏;属性值不存在(小学生的配偶)

  2. 异常值
    样本中的个别值,其数值明显偏离了其余的观测值。
    (1)简单统计分析:根据常识分析
    (2)根据该数据远离平均值的多少倍来确定它是不是异常值
    (3)箱型分析:25%的数据任意变化而不会影响四分位数。

  3. 不一致的值
    多指数据的矛盾性和不相容性。

  4. 重复数据和含有特殊符号的数据

数据特征分析

分布分析

  1. 定量数据的分布分析:
    极差,组距,组数,频率分布图,频率分布直方图。
  2. 定性数据的分布分析:
    根据数据的分类利用饼状图或者柱状图来做分布分析。

对比分析

  1. 绝对数比较:将不同数据直接比较得出差异
  2. 相对数比较:结构相对数,比例相对数,强度相对数,计划完成相对数,动态相对数(有一个数作为分母)
  3. 统计量分析:对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。
    集中趋势:均值,中位数,众位数
    离中趋势:极值,标准差,变异系数,四分位数间距
  4. 周期性分析:随时间变化而具有的周期性
  5. 贡献度分析(Pareto Principle
  6. 相关性分析:直接绘制散点图,散点矩阵,计算相关系数(pearsonx相关系数,Spearman相关系数,判定系数)
上一篇 下一篇

猜你喜欢

热点阅读