352:Sta base(6)-Z分数和正态分布
如果一个连续随机变量的分布可以用下面的公式来描述,那么这个分布就可以称为正态分布。正态分布为钟形对称分布。
注意,有人可能会好奇为什么一个变量,听起来就一个值,为什么会形成一条曲线。连续型随机变量的特点就是随机变量(假设随机变量为X)的所有可能取值不可以逐个列举出来,换句话说就是可能有无限个,那么这个无限个的值如果满足上面的那个公式,那么形成的分布就为正态分布。
对于标准正态分布,其密度曲线下的面积为1。通常用Z分数标记横坐标
1:Z分数
Z分数是指数据值偏离均值的标准差的个数,对于总体和样本的公式分别如下
根据图我们可以知道越偏离均值,Z分数越大(或者越小),说明数据越极端。
我们以上图为例,当横坐标为X+1S时,说明当前的数据值偏离均值1个标准差;当横坐标为X+2S时,说明当前数据值偏离均值2个标准差(其实这里的2常用的应该是1.96,然后对应的曲线下面积是95%);然后3S常用的是2.58,然后对应的曲线下面积是99% (因为编辑器不支持特殊符号的输出,所以大家以图片为准,比如X要加上横杠)。
然后我也在其他书上看到这个Z分数的计算公式还可以用其他符号代替,这个像u的东西(注意这个u应该不是英文字母u,也不是总体均值μ),被称为标准正态变量。看到它的计算公式跟Z分数是一样的。当算出了标准正态变量,我们就可以算出这个标准正态变量所对应的面积。
来自《医学统计学-孙振球》统计学家发明了标准正态分布曲线下面积表,通过查表,我们可以知道标准正态变量对应的曲线下面积。
比如我现在求得一个标准正态变量u值为-0.51,这时候需要拆分成两部分,即-0.5+ 0.01,第一个数对应的是表中的列;第二个数对应的是表中的行,交叉就得到这个标准正态变量对应的曲线下面积=0.3050(注意是左侧面积)
我们拿那个Z分数的图来比较一下,比如u=0的时候,对应的左侧面积是0.5(右侧的面积为1-0.5=0.5),u=-0.51,挺靠近u=0,对应的面积是0.3050。
同时,如果我们知道了左侧面积,对应的右侧面积也知道了。
现在大家应该知道怎么查表了,这个其实在大学教过,但是我当时根本没听,还是现在学的时候重新了解的。
知道这个u标准正态变量,以及后面文章可能会讲到的t值、F值以及假设检验,都会用到这些知识,所以我觉得还是要了解一下。尤其是后面假设检验讲到的单侧检验和双侧检验什么。
当然了,确定了对应的模型,我们不需要按照公式去计算,查表那么麻烦,利用SAS就能直接给我们算出那些P值什么的,但是了解知识,对于你看RESULT结果我觉得也会更有帮助。
2:临界值:
这里再讲一个临界值,对于标准正态分布,临界值是一个Z分数,它位于分开显著低和显著高的分数的分界线上。
常用的临界值有Z=-1.96和Z=1.96,我们用这个举例子
查表,得到Z=-1.96对应的左侧面积对0.0250,即图上我左边画的红色阴影。0.025=25%的总体Z分数小于等于-1.96,所以Z≤-1.96是显著低的值。
然后还有一个知识点是
Zα:表示的是右侧面积为α的Z分数。
我们项目常见的是取双侧α 0.05,那么单侧α就是0.025
Zα=Z0.025表示右侧面积为0.025的Z分数,我们查表,找到交叉点为0.025的横轴和纵轴,拼起来是-1.96,因为表示的是右侧面积,所以Z=1.96。反过来说就是Z=1.96对应的右侧面积是0.025。
参考
《基础统计学-第14版》
《医学统计学-孙振球》
如有错误欢迎指出