描述性统计
描述性统计
数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反应了各数据向中心值靠拢或聚集的程度。二是分布的离散程度:反应个数据远离中心值的趋势。三是分布的形状:反应数据分布的偏态和峰态。
1.1 集中趋势的度量
集中趋势(central tendency)是指某一组数据向某一中心点靠拢的程度,它反映了一组数据的中心点所在。低层次的数据的集中趋势测度值适用于高层次的数据,反之不可。
1.1.1 分类的数据:众数
众数(mode)是一组数据中最多出现的变量值。主要用于测度分类数据的集中趋势。也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下:只有数据量大的情况下,众数才有意义。并且不受极端值的影响
1.1.2顺序数据:中位数和分位数
一组数据中,可以找出某个位置上的数据。
-
中位数(median)是一组数据排序后处于中间位置上的变量值。适用于测度顺序数据的集中趋势,和数值型数据的集中趋势,不适用于分类数据。
在这里插入图片描述 -
四分位数 (quartile)也成四分位点,它是一组数据排序后处于25%上的位置和75%位置上的值。位置确定有如下几种:
在这里插入图片描述Excel中可以使用QUARTILE函数计算一组数据的四分位数。
算法:QUARTILE.INC(array,quart)
1.1.3 数值型数据:平均数
平均数也称均值(mean),它是一组数据相加后除以一组数据的个数的结果。
平均数是集中趋势的测度值,适用于数值型数据,而不适用于顺序数据和分类数据。
- 简单平均数和加权平均数
根据未经分组数据计算的平均数称之为简单平均数(simple mean)
-
根据分组数据计算的平均数称之为加权平均数(weighted mean)
在这里插入图片描述2.特殊的平均数:几何平均数
-
几何平均数(geometric mean) 是n个变量值乘积的n次方根,用G表示。
在这里插入图片描述
当数据中出现零值或负值时,不宜计算集合平均数。主要用于计算平均比率。Excel中GEOMEAN函数可以计算数值型的几何平均数
语法:GEOMEAN(number1……)
当所平均的各比率数值差别不大时,算数平均和几何平均结果差别不大,反之差别明显。
1.1.4 众数,中位数,平均数的差别
-
关系:
分布角度:众数是数据分布的最高峰值,中位数处于数据中中间位置上的值,平均数是算数平均。
对于单峰分布而言:如果数据对称:众数=平均数=中位数。
如果左偏分布:会出现极小值,关系为:平均数<中位数<众数。
如果右偏分布 :众数<中位数<平均数。 -
应用场合:
众数是一组数据分布的峰值,不受极值影响。缺点是不具有唯一性。适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的值,不受极端值影响,适合顺序数据的测度值。
平均数:针对数值型数据,是应用最广泛的集中趋势测度值。缺点容易受极端值影响。
在这里插入图片描述
1.2 离散程度的度量
数据的离散程度是数据分布的另一个重要特征。反应个变量值原理中心值的程度。越大,集中趋势测度值代表性就越差;越小,代表性就越好。根据不同数据类型还有的异众比率,四分位差,方差和标准差。还有极差,平均差,和离散系数。
1.2.1 分类依据 :异众比率(variation ratio)
是指非众数组的频数占总频数的比例。用Vr表示
异众比率主要衡量众数对一组数据的代表程度。越大说明,非众数组的频数越大,众数的代表性越差。反之,越好。属于顺序和数值型数据也可以计算。
1.2.2顺序数据:四分位差(quartile deviation)
也称四分间距(inner -quartile range),是上四分位数和下四分位数的差值。Qd表示
Qd = Qu-Ql
其反映了50%的离散程度,数值越小,说明中间数据;反之,分散。一定程度上说明了中位数的影响,不适合分类数据。
1.2.3 数值型数据:方差和标准差
-
极差:一组数据中最大值和最小值的差。也称全距。用R表示。
R = max(Xi)-min(Xi)
容易受极端值影响,不能反映中间数据。 -
平均差(mean deviation)
在这里插入图片描述
也称平均绝对差(mean absolute deviation)。是个变量值与平均数差的绝对值。Excel的AVEDEV(number……)可以计算平均差。
能全面反映数据的离散程度。越大说明离散程度越大;反之,越小。
- 方差和标准差
方差(variance)是各变量值与平均数差平方的平均数。
标准差(standard deviation)是方差的平方根。
能更好的反映数据的离散程度。
在这里插入图片描述
Excel的统计函数STDEV(number……)
总体数据:STDEVP(number……)
自由度(degree of freedom):样本方差是用样本数据减1后去除离差的平方和。其中n-1称为自由度。
在这里插入图片描述
-
相对位置的度量
在这里插入图片描述
1.标准分数(standard score):变量值与其平均数的差除以标准差。也称标准分数。设标准分数为z
标准分数给了一组数据中的相对位置。
1.2.4 相对离散程度:离散系数
离散系数:也称变异系数,它是一组数的标准差和平均数之比。
1.3 偏态和峰态的度量
1.3.1 偏态及其测度
偏态(skewness):是对数据分布对称性的测度。测度偏态的统计量是偏态系数(coefficient of skewness )。记作 SK。