统计学-数据的描述性统计

2019-07-19  本文已影响0人  Vicky_1ecd

数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是数据的集中趋势描述数据的离散程度描述数据的分布形态描述

集中趋势描述

数据的集中趋势描述是寻找反映事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好地反映事物目前所处的位置和发展水平。主要描述指标包含:

1. 众数中位数平均数

  1. n为奇数时, n为奇数
  2. n为偶数时,

    n为偶数
    备注:中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

2. 算数平均值加权平均值几何平均值

离散程度描述

1. 数值型数据:极差平均偏差方差标准差

样本标准差s对总体标准差σ的估计误差为: 样本标准差s对总体标准差σ的估计误差

2. 顺序数据:四分位数

(1)先将数字由小到大排序:下四分位数Q1,又称“较小四分位数”.
(2)第二四分位数 (Q2),又称“中位数”
(3)上四分位数Q3,又称“较大四分位数”
(4)四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1)这个差值区间包含了整个数据集合50%的数据值。
Q1-Q2之间距离的差的一半又称为分半四分位差。


四分位数

3. 分类数据:异众比率 异众比率

①主要适合测度分类数据的离散程度
②异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;
③异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好;

相对离散程度描述

变异系数

如果两者的方差和标准差相等时,那么到底哪个数据集合的离散程度更高、更低或相同?对于这个问题,方差和标准差解决不了,变异系数却可以。
总体的变异系数计算公式为:

总体的变异系数
样本的变异系数计算公式为: 样本的变异系数
备注:①变异系数越小,变异(偏离)程度越小,风险也就越小;
②变异系数越大,变异(偏离)程度越大,风险也就越大。

分布的形状

偏态系数 偏态分布 图片来源于网络

备注:
(1)看长尾在哪边就是往哪偏;
(2)峰左移,右偏态;
(3)峰右移,左偏态;
(4)偏态系数:SK< 0 左偏,又称为负偏;SK> 0 右偏,又称为正偏。
(5)当样本增大时,其均数趋向正态分布

偏态系数计算公式: 偏态系数
加权偏态系数计算公式: 加权偏态系数

峰态系数 峰态分布

正态分布的峰度K=3,均匀分布的峰度K=1.8。
备注:除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。
kurtosis=K-3 称为超值峰度
kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多
kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少

峰态系数计算公式: 峰态系数

注:此文章部分节选于《人人都会数据分析》。![ffff.jpeg]

上一篇下一篇

猜你喜欢

热点阅读