描述性统计

2019-11-11  本文已影响0人  知止9527

描述性统计

数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反应了各数据向中心值靠拢或聚集的程度。二是分布的离散程度:反应个数据远离中心值的趋势。三是分布的形状:反应数据分布的偏态和峰态。
1.1 集中趋势的度量
集中趋势(central tendency)是指某一组数据向某一中心点靠拢的程度,它反映了一组数据的中心点所在。低层次的数据的集中趋势测度值适用于高层次的数据,反之不可。

1.1.1 分类的数据:众数
众数(mode)是一组数据中最多出现的变量值。主要用于测度分类数据的集中趋势。也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下:只有数据量大的情况下,众数才有意义。并且不受极端值的影响

在这里插入图片描述

1.1.2顺序数据:中位数和分位数
一组数据中,可以找出某个位置上的数据。

1.1.3 数值型数据:平均数
平均数也称均值(mean),它是一组数据相加后除以一组数据的个数的结果。
平均数是集中趋势的测度值,适用于数值型数据,而不适用于顺序数据和分类数据。

  1. 简单平均数和加权平均数
    根据未经分组数据计算的平均数称之为简单平均数(simple mean)
在这里插入图片描述

1.1.4 众数,中位数,平均数的差别

1.2 离散程度的度量

数据的离散程度是数据分布的另一个重要特征。反应个变量值原理中心值的程度。越大,集中趋势测度值代表性就越差;越小,代表性就越好。根据不同数据类型还有的异众比率,四分位差,方差和标准差。还有极差,平均差,和离散系数。

1.2.1 分类依据 :异众比率(variation ratio)
是指非众数组的频数占总频数的比例。用Vr表示

在这里插入图片描述

异众比率主要衡量众数对一组数据的代表程度。越大说明,非众数组的频数越大,众数的代表性越差。反之,越好。属于顺序和数值型数据也可以计算。

1.2.2顺序数据:四分位差(quartile deviation)

也称四分间距(inner -quartile range),是上四分位数和下四分位数的差值。Qd表示
Qd = Qu-Ql
其反映了50%的离散程度,数值越小,说明中间数据;反之,分散。一定程度上说明了中位数的影响,不适合分类数据。

1.2.3 数值型数据:方差和标准差

能全面反映数据的离散程度。越大说明离散程度越大;反之,越小。

能更好的反映数据的离散程度。


在这里插入图片描述

Excel的统计函数STDEV(number……)
总体数据:STDEVP(number……)

自由度(degree of freedom):样本方差是用样本数据减1后去除离差的平方和。其中n-1称为自由度。


在这里插入图片描述

1.2.4 相对离散程度:离散系数

离散系数:也称变异系数,它是一组数的标准差和平均数之比。

在这里插入图片描述

1.3 偏态和峰态的度量

1.3.1 偏态及其测度

偏态(skewness):是对数据分布对称性的测度。测度偏态的统计量是偏态系数(coefficient of skewness )。记作 SK。

在这里插入图片描述
上一篇下一篇

猜你喜欢

热点阅读