10种正态分布的验证方法
正态分布是一种非常重要的数据分布类型,
很多统计理论都是基于正态分布,
甚至t分布、F分布、卡方分布、二项分布和泊松分布都与正态分布有联系,
后台经常有人咨询正态分布的验证问题。
方法一:直方图分布形态判断法
(直方图SPSS至少5种操作方法,此处演示1种)
案例:某高校随机抽取600人,测得身高和体重,现做体重的直方图。
1.SPSS菜单-图形-直方图。如下:
2.结果
3.解读:直方图专门用于反映连续性资料(数值变量、计量资料)频数分布的,帮助我们探析数据分布的规律。
看图需要结合经验,本例数据右侧拖尾大家基本都能看出来,
但松哥认为还可能有点尖峭峰,意思是太尖了。当然后面我们继续会验证松哥的看法。
方法二:SPSS-菜单-分析-描述-探索
松哥:此种方法很重要,里面会有很多种结果哦,有图有指标!
案例同上:还做体重
1.SPSS菜单-分析-描述-探索。如下:
(如果勾选上方直方图,将再次画直方图)
2.结果
2.1P-P图
解读:所有点相连呈串,分布于参考斜线之上,则为正态,
本例非常明显,很多点不在线上,因此应该不符合正态分布。
2.2Q-Q图
解读:Q-Q图解读同上,本例通过Q-Q图也可发现不符合正态。
2.3箱式图
解读:虽然箱式图一般用于判定数据是否存在异常值,
但如果细心,上方很多离群值,
数据像大的方向拖尾,结果与直方图判读一致。
2.4茎叶图
解读:茎叶图现在基本很少用啦!
其命名似乎是根据形态,如果整个图逆时针转90度,不就是变相的直方图吗?
也是反映分布形态的,
但信息含量远大于直方图,
大家请看倒数第二行,
我解读一下,
最左边的7,是指右边的小数点后面有7个数字,
发现4444555,确实7个。
7.是茎,4444555是7个树叶,
最后一行主干宽度是10,
意味上面数字得放大10倍,
意思是有4个74。3个75。
就这样解读的。
2.5正态性统计检验
解读:SPSS此处提供了两种检验,D检验和W检验。
本例两种检验得到的P值均小于0.05,因此认为不符合正态分布。
但是也会出现D检验和W检验不一致的情况,此时如何选择以前文章发过,此处不赘述!
2.6峰度系数和偏度系数
峰度系数是用于判定分布是不是太尖或太平;
偏度系数用于判定偏左还是偏右,
这点很容易理解!如下图
本例的分析结果见下表,红色框中分别为峰度系数和偏度系数及其各自的标准误差;
那么如何判断呢,比如看偏度判断=0.908/0.101约等于9,
如果此值的绝对值大于1.96就认为偏,
因为此处是正值,因此为正偏态(右偏态);
峰度系数判断方法同样,正值为尖峭峰,负值为平阔峰。
2.7统计描述指标初步诊断
解读:大家看下图,
均值、中位数与众数在三种分布的关系如下,
如果三者偏差太大,一般不可能符合正态分布。
2.8经验法
一般正态分布的标准差不会大于均值的1/3,
这是目测判断法哦,
最终还是要经过检验,
但如果标准差都大于均数,一般不太可能正态分布。
方法三:SPSS-菜单-非参数
1.案例数据依旧同上。
现在采用非参数的方法。
SPSS-分析-非参数-单个样本K-S检验,弹出下图:
2.计算结果
解读:单样本K-S检验可以验证四种分布,
本例选择的是正态分布验证,
非参数检验结果一般比较简单,
大家看最后的P值=0.000<0.05。
因此,不符合正态分布哦!
松哥小结!!!
本章松哥给大家介绍了10种正态分布的验证方法,其实还有呢!
数据分布的正态性在统计分析时重要,
但有时也不是非常苛刻,近似正态也可以,看不同统计方法的耐受性了。
再者当数据不符合正态,而我们方法又要求数据符合正态怎么办呢!
举个不恰当的例子,男人不可以上女卫生间,可你非要去,那就变个性呗!
对于数据,那就要正态性变换啦!
有时间再给大家整个正态性变换方法汇总。