不头秃的生物统计学2 - 单因素方差分析

2019-11-16  本文已影响0人  发哥的档案室

biostatistic/blogger

方差分析我理解了很久,最让我困惑的是,为什么不是统一的?
为什么两个样本均值差异比较用 t 检验
而三个或以上样本均值差异却用 F 检验
尤其仔细想想,这两种检验方法计算过程好像大相径庭。

后来我才好像慢慢理解,为什么老师说两者其实是一回事。


F 分布

我们先来认识一下,什么是 F 分布

F 分布也称为:两个样本方差比的抽样分布
翻开概率和统计的书,里面写到:

从一个正态总体 (μ,σ^2) 中随机抽取两个样本,其样本方差(S1)^2 与 (S2)^2 的比值为 F

F 分布曲线随之df1 和 df2 的变化而变化,由于F值是一尾的,一般『大方差样本作分子,小方差样本作分母,使得F值大于1』,df1 代表大方差自由度,df2 代表小方差自由度。

好的,知道这个后,和我要『比较多个样本均值差异』有什么关系呢?
我们先来想想,三个以上的东西进行比较时,应该要怎么比?


三个以上东西如何比较 (和后面多重比较名字区分开)

  1. 第一种思路是多重比较,即每两个东西都比一遍,比如 a,b,c 三个数,a > b, a > c,那 a 就是最大的。
  2. 第二种思路是类似跑步,同一起跑线上,单位之间内,看谁跑的距离多,谁就跑得快。

方差分析有点类似第二种思想 (以下是我的理解,如果不正确请指出)

首先想一个问题:
我们观测到的变异,是因为什么造成的?

方差分析的基本思想就是,将『观测值出现的变异』,归为『处理效应』和『随机(试验)误差』作用下产生的变异

##### 变异来源

我们想来考虑一下,什么因素会引起数据的波动 (变异) ?

1. 随机误差 (可减少但躲不过):无法控制的偶然因素
2. 系统误差 (可改善甚至消除):试验条件或人为错误
3. 处理效应 (按理说力度最大)


一个样本时:
- 只有随机误差和系统误差
- 随机误差:如抽样(个体)差异
- 系统误差:如测量的准确度

两个样本时:
- 随机误差:如抽样(个体)差异
- 系统误差:如测量的准确度
- 处理效应:如 (处理前后抽样差异,不同的处理后抽样的差异)

多个样本时:
- 随机误差:如抽样(个体)差异
- 系统误差:如测量的准确度
- 处理效应:如不同的处理后的差异

在严格控制各个试验环节后,我们可以认为,现在引起数据变异的就剩下两个因素:『随机误差』和『处理效应』

我们沿着 『不同处理效应引起的变异』对『总体变异』有多大的贡献的思路

首先,我们明确
1. 处理内的个体值差异,是由于『随机误差』引起的
2. 处理间平均值的差异,是由于『处理效应』引起的
3. 排除了系统误差,『观察值的变异』只能是『处理变异』和『随机变异』贡献的
4. 如果『处理变异』显著,那么说明处理间差异显著,即不同样本均值差异显著

第二,我们知道『方差』是描述数据变异程度的一个指标

现在,『观察值的变异』只能是『处理变异』和『随机变异』贡献的

我们要怎么比较『处理变异』和『随机变异』谁的贡献更大呢?
1. 第一种思路 (做减法):『处理变异』减去『随机变异』(但是问题又来了,差值多少才能说显著呢?我们不知道两个均值方差差数的分布)
2. 第二种思路 (做除法):『处理变异』比『随机变异』。根据前面介绍的 F 分布,两个样本方差比为 F 值,所有的两个样本可能的方差比构成 F 分布。这时我们可以进行 F 检验。


F 检验 (套公式,但需要了解公式每个部分的含义)

下面我们直接上例题演示一遍每个步骤的计算:
先理解每个公式符号的含义,直接套用公式
至于公式是怎么推导的,如果以后有空,再和大家分享。

按部就班套代入公式计算就好了,最后整理成下面这个表的样子。(填空)
(在这里问大家一个问题?如果每个处理的重复数 n 不一样呢?要怎么办?)

然后再来解释一下这张表。
先说结论:(在犯错为 0.05 的概率下),不同饲料对猪的增重变化有显著性差异。 (做了这么多计算,也就仅仅能得出这样的结论,很伤心)

实际上,我们在用的时候,基本不用计算任何值,因为只有我们把数据输进去,把数据组织好,统计软件就会把所有相应的值算好,我们直接拿来用就好了。(关于结合统计软件,或者相关代码的应用。我以后有空再写。)

好了,现在我们知道,如果用『 F 检验 』来检验『多个样本均值』是否存在显著性差异。但是也仅仅是知道,均值之间有差异而言。至于哪两个之间有显著差异,还是两两之间都有显著性差异,还是别的?我们都不知道。我们现在能知道的,仅仅是『样本均值』之间存在显著性差异。

在我们进一步做多重比较时,我们先来看看 F 检验与t检验的关系


F 检验与t检验关系

我一开始觉得非常奇怪,
为什么 F 检验算完 F 值比较完,得出差异显著以后,还要做 LSD (多重比较),而不是像 t检验 那样一步到位?

后来我好像明白,无论时 F 检验,还是 t 检验。
做的事情都是比较两个东西之间是否有差异
F 检验比较的是,两个样本方差
t 检验比较的是,两个样本均值

不同的是,

F 检验在方差分析中得出的结论是:『处理间方差』和『处理内方差』有显著性差异。说明『处理效应』的作用不能忽略,进而得到『不同(处理)样本间』有显著性差异。但是谁和谁之间是否有显著性差异?不知道。

t 检验得出的结论直接就是:两个样本均值存在显著性差异。因为对象很目前,只有两个,而且有差异,所以不需要进行多重比较。

实际上, t 检验 和 F 检验 做的是同样的东西,
只不过 F 检验 涉及到多个样本,需要做平均/加权
至于为什么要平方?因为不平方的话,差值都正负抵消,St = 0

如果不相信的话,可以看一下当 k = 2 时,也就是 两个样本均值比较时
F 值 的计算结果就是 t 值 的平方

好了,F 检验解决了多个样本之间是否存在显著性差异的问题
但是还没有解决『究竟是哪些样本之间存在显著性差异?』


多重比较

不知道看这里的时候,大家是不是何为一样懵逼
因为课件上分明写着,多重比较的 LSD 法本质也是一种 t 检验
???
所以前面吐槽了一大堆各种 t 检验不好,有问题
最后又回到 t 检验
???
好吧,其实好像还真的不一样。

首先,什么是多重比较?

第二,老师上课讲的『多重比较有 LSD』和 (SSR 和 q)三种方法

LSD 法进行多重比较

LSD 结果的表示方法:字母法 / 梯形法 (我个人更喜欢梯形法,直观明了)

字母法:

梯形法:

最后提一下,除了LSD法外,LSR 法里面的 SSR 和 q-test

准确性来讲:q-test > SSR > LSD
但是有没有必要用 q-test?如果LSD 就能做出来,没必要用q-test
不过在用统计软件时,全部选上啊,管它呢,又不是你算
最后出来结果看一下,哪个合适用哪个。


最后,我们完整地写一遍『单因素方差分析』的步骤 (考试的孩子看这里)

其实也蛮轻松的嘛 [NosePick]


好难过,讲了这么久才讲完单因素方差分析
双因素方差分析以后有空再讲吧 (好累,也应该不考)


最后提一点别的东西。

F 检验与 方差同质性检验

不知道大家看到这一页PPT的时候是不是有点懵
这是两个小样本成组 t 检验的一页ppt
好好的 t 检验
怎么就突然出现F 检验了呢?这个跟后面的方差分析有什么关系吗?

额,应该是没什么关系的

我们再来回顾一下,F 检验时用来干嘛的
F 检验是用来『比较两个样本方差的差异』

从一个正态总体 (μ,σ^2) 中随机抽取两个样本,其样本方差(S1)^2 与 (S2)^2 的比值为 F

只不过在方差分析中,我们正好利用了 F 检验, 将『组间变异』放在分子,『组内变异』放在分母

那为什么上面的 t 检验会扯到 F检验 呢?
实际上,对样本平均数的假设检验是以方差同质性为前提的。
方差同质性检验,就是要从各样本的方差来推断其总体方差是否相同。
不过一般来说,只要满足完全随机抽样,方差同质性就会满足,即 σ1 = σ2

一个样本方差同质性检验:卡法检验法
两个样本方差同质性检验:F检验法
三个或以上样本方差同质性检验:卡法检验法 + 连续矫正
至于为什么?等我理解了,并且有空再说吧

最后还是那句话
本人能力有限
若有谬误,劳烦指出,我会尽快更正
我发现我老是打错别字,大家适应一下吧

作者:发哥
链接:发哥的档案室 - 简书
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

上一篇 下一篇

猜你喜欢

热点阅读