10种正态分布的验证方法

2019-04-29  本文已影响0人  一只漂泊但是开心的鸟

正态分布是一种非常重要的数据分布类型,

很多统计理论都是基于正态分布,

甚至t分布、F分布、卡方分布、二项分布和泊松分布都与正态分布有联系,

后台经常有人咨询正态分布的验证问题。


方法一:直方图分布形态判断法

(直方图SPSS至少5种操作方法,此处演示1种)

案例:某高校随机抽取600人,测得身高和体重,现做体重的直方图。

1.SPSS菜单-图形-直方图。如下:

2.结果

3.解读:直方图专门用于反映连续性资料(数值变量、计量资料)频数分布的,帮助我们探析数据分布的规律。

看图需要结合经验,本例数据右侧拖尾大家基本都能看出来,

但松哥认为还可能有点尖峭峰,意思是太尖了。当然后面我们继续会验证松哥的看法。

方法二:SPSS-菜单-分析-描述-探索

松哥:此种方法很重要,里面会有很多种结果哦,有图有指标!

案例同上:还做体重

1.SPSS菜单-分析-描述-探索。如下:

(如果勾选上方直方图,将再次画直方图)

2.结果

2.1P-P图

解读:所有点相连呈串,分布于参考斜线之上,则为正态

本例非常明显,很多点不在线上,因此应该不符合正态分布。

2.2Q-Q图

解读:Q-Q图解读同上,本例通过Q-Q图也可发现不符合正态。

2.3箱式图

解读:虽然箱式图一般用于判定数据是否存在异常值

但如果细心,上方很多离群值,

数据像大的方向拖尾,结果与直方图判读一致。

2.4茎叶图

解读:茎叶图现在基本很少用啦!

其命名似乎是根据形态,如果整个图逆时针转90度,不就是变相的直方图吗?

也是反映分布形态的,

但信息含量远大于直方图,

大家请看倒数第二行,

我解读一下,

最左边的7,是指右边的小数点后面有7个数字,

发现4444555,确实7个。

7.是茎,4444555是7个树叶,

最后一行主干宽度是10,

意味上面数字得放大10倍,

意思是有4个74。3个75。

就这样解读的。

2.5正态性统计检验

解读:SPSS此处提供了两种检验,D检验和W检验。

本例两种检验得到的P值均小于0.05,因此认为不符合正态分布。

但是也会出现D检验和W检验不一致的情况,此时如何选择以前文章发过,此处不赘述!

2.6峰度系数和偏度系数

峰度系数是用于判定分布是不是太尖或太平;

偏度系数用于判定偏左还是偏右,

这点很容易理解!如下图

本例的分析结果见下表,红色框中分别为峰度系数和偏度系数及其各自的标准误差;

那么如何判断呢,比如看偏度判断=0.908/0.101约等于9,

如果此值的绝对值大于1.96就认为偏,

因为此处是正值,因此为正偏态(右偏态);

峰度系数判断方法同样,正值为尖峭峰,负值为平阔峰。

2.7统计描述指标初步诊断

解读:大家看下图,

均值、中位数与众数在三种分布的关系如下,

如果三者偏差太大,一般不可能符合正态分布。

2.8经验法

一般正态分布的标准差不会大于均值的1/3,

这是目测判断法哦,

最终还是要经过检验,

但如果标准差都大于均数,一般不太可能正态分布。

方法三:SPSS-菜单-非参数

1.案例数据依旧同上。

现在采用非参数的方法。

SPSS-分析-非参数-单个样本K-S检验,弹出下图:

2.计算结果

解读:单样本K-S检验可以验证四种分布,

本例选择的是正态分布验证,

非参数检验结果一般比较简单,

大家看最后的P值=0.000<0.05。

因此,不符合正态分布哦!

松哥小结!!!

本章松哥给大家介绍了10种正态分布的验证方法,其实还有呢!

数据分布的正态性在统计分析时重要,

但有时也不是非常苛刻,近似正态也可以,看不同统计方法的耐受性了。

再者当数据不符合正态,而我们方法又要求数据符合正态怎么办呢!

举个不恰当的例子,男人不可以上女卫生间,可你非要去,那就变个性呗!

对于数据,那就要正态性变换啦!

    有时间再给大家整个正态性变换方法汇总。

上一篇下一篇

猜你喜欢

热点阅读