统计特征
在研究数据整体的时候,统计特征可以有效的帮助我们快速了解数据。
集中量数和差异量数是描述数据的两种概念。
一:集中量数
描述一组数据的规律性的量数称为集中量数。它是一组数据的一般水平的代表值。
教育评价中常用的描述一组评价对象一般水平的量数有算术平均数、中位数和众数、几何平均数等。
1.算术平均数
算术平均数是全部数据的算术平均,又称均值,符号为M(Mean)。算术平均数是集中趋势作主要的测度值,在统计学中具有重要地位, 是进行统计分析和统计推断的基础。它主要适用于数值型数据,但不适用品质数据。根据表现形式的不同,算术平均数有不同的计算形式和计算公式。其中,算术平均数是加权平均数的一种特殊形式(它特殊在各项全相等),在实际问题中,当各项权不相等时,计算平均数时就要采用加权平均数,当各项权相等时,计算平均数就要采用算数平均数。两者不可混淆。
简单算术平均数
简单算术平均数主要用于未分组的原始数据。设一组数据为X1,X2,...,Xn,简单的算术平均数的计算公式为:
M=(X1+X2+...+Xn)/n
优缺点
算数平均数具备了良好集中量数应具备的一些条件:
1、集中量数
2、反应灵敏
3、确定严密
4、简明易解
5、计算简单
6、适合进一步演算
7、较小受抽样变化的影响等优点。
同时也存在一定的缺点,限制了它的使用:
1、算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。
应用原则
1、同质性数据
2、平均数与个体数值相结合考虑
3、平均数于方差、标准差相结合考虑
二.中位数
中数(Median),又名中位数。 对一组数进行排序后,正中间的一个数(数字个数为奇数);或者中间两个数的平均数(数字个数为偶数)。
中数是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。这个数可能是数据中的某一个,也可能根本不是原有的数。
优点
1、计算简单
2、容易理解
3、不受极端值影响
缺点
1、反应不够灵敏
2、 受抽样影响较大
3、中数乘以总次数于总数不相等
4、不能进一步代数运算
应用情况
1、需要快速估算集中值时
2、有极端数据时
3、有模糊不清楚的数据时
3.众数
众数(Mode),一组数据中出现次数最多的数值,叫众数,用M表示。
计算众数的方法
(一)、根据单项数列求众数,不需要任何计算,可以直接从分配数列中找出出现次数或频率最大的一组标志值,就是所求的众数。
(二)、对组距数列求众数。对众数的计算有两种公式:
1、上限公式:
2、下限公式
其中:
f表示众数所在组次数;
f-1表示众数所在组前一组的次数;
f+1表示众数所在组后一组的次数;
L表示众数所在组组距的下限;
U表示众数所在组组距的上限;
i表示组距;
优点
1、简单明了
2、容易理解
缺点
1、不稳定,受分组和样本变动影响
2、反应不灵敏
3、不能进一步做代数运算
应用
1、需要快速估算一组数据集中值时。
2、数据不同质时
3、两极端有极端值时
4、快速估计分布形体时
4.几何平均数
几何平均数(Geometric mean),是求一组数值的平均数的方法中的一种。适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。
几何平均数(geometric mean)是指n个观察值连乘积的n次方根。
1、简单几何平均数:
2、加权几何平均数:
应用
1、对比率、指数等进行平均;
2、计算平均发展速度;
其中:样本数据非负,主要用于对数正态分布。
3、复利下的平均年利率;
4、连续作业的车间求产品的平均合格率。
二 :差异量数
差异量数亦称变异量数,又称离散趋势量数,它是统计学的基本概念之一,指表示样本数据偏离中间数值的趋势的量数,或者说它是反映样本频率分布离散程度的量数。差异量数大,表示各数值分布的范围广且参差不齐;差异量数小,表示各数值较集中、整齐,波动的范围幅度小。因此,集中量数的代表性如何,可由差异量数得到反映。差异量数愈大,则集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大。所以,考察某种分布的差异量数,还有助于对集中量数的理解。
常见的差异量有平均差、方差、标准差、全距、四分差、百分差等。
1.平均差
一组数据( 样本)Xi,i = 1,…,N(1)的平均差公式为下图
它是算术平均数与各数据距离的平均,有效地利用了信息,能直接很好地反映这组数据的差异程度。但由于MD(平均数)用了绝对值,难以进行代数运算,理论分析困难,所以运用较少。
2.方差
它是将MD中的距离改为距离的平方得到。方差可有效地利用信息,且能很好地反映这组数据的差异程度。这样改变后,虽然不如平均差反映差异那么直接,但避免了绝对值,从而进行数学处理更加方便,应用最广。
3.标准差
标准差(Standard Deviation),在概率统计中最常
4.全距
全距是用来表示统计资料中的变异量数(measure sofvariation),其最大值与最小值之间的差距;即最大值减最小值后所得之数据。其适用于等距变量、比率变量,不适用于名义变量或次序变量。
全距也称为极差,是指总体各单位的两个极端标志值之差,即:R=最大标志值-最小标志值
因此,全距(R)可反映总体标志值的差异范围。
5.四分差与百分差
百分差与四分差只利用了数据的部分信息,不能进行代数运算,反应不灵敏,但当两极端数据不清楚或数据信息不全时,只能用百分差与四分差。
全距、百分差与四分差都只利用了数据的部分信息,一般是在数据信息不全,平均差和方差及其改进量不能用时选用。