生物统计R语言

方差分析(ANOVA)原理及其实现

2019-08-23  本文已影响0人  生物系烟酒僧

    诸如t-test, one-way anova, two-way anova等统计学差异显著性分析在生物实验中非常常见。这些分析手段的计算公式对于搞生物的人来说还是比较复杂的,好在有很多软件,如SPSS, Prism, R等可以方便地做这些分析而省去了公式计算。但是在使用这些软件时,很多人往往对于参数的设置存在疑惑,这说明对于这些统计学分析的原理还不够了解。本文主要介绍方差分析(ANOVA)的原理,以及它在生物实验方面的应用,及其在R与Prism里的实现。

一、方差分析的简介

    方差分析是英国统计学家R.A.Fisher提出的对两个或多个样本平均数差异显著性检验的方法。它的基本思想是将测量数据的总变异(即总方差)按照变异来源分为处理(组间)效应和误差(组内)效应,并作出其数量估计,从而确定实验处理对研究结果影响力的大小。按因素划分,可分为单因素方差分析、二因素方差分析和多因素方差分析。单因素方差分析这个也太对于因素的主效应进行分析,而二因素方差分析与多因素方差分析则对因素的主效应和它们的相互作用进行分析。方差分析的步骤为:总平方和分解、总自由度分解和F检验。若F检验显著,则可以进行多重比较,从而发现哪些处理具有两两间的差异。

二、方差分析的基本原理

    在一次实验中,可以得到一系列不同的观测值。造成观测值不同的原因可能是由于处理因素不同引起的,即处理效应;也可能是由于实验过程中偶然性因素的干扰和测量误差所致,即误差效应。反应测量数据变异性的指标有多个,在方差分析中选用方差来度量资料的变异程度。要正确认识观测值的便宜是由于处理效应还是误差效应引起的,我们可以分别计算出处理效应的方差以及误差小于的方差,在一定显著水平下进行比较,如果二者相差不大,说明实验处理对观测值的影响不大;如果差异较大则说明实验处理对于观测的影响较大。

    方差分析建立在三个基本假定的基础上:

1. 正态性

    正态性是指实验误差应当是服从正态分布的独立随机变量,因为方差分析和i能估计随机误差,顺序排列或者顺序取样不能作方差分析,但是非正态分布的数据经过适当数据转换后也可以进行方差分析。

2.. 可加性

    可加性是指处理效应与误差效应是可加的,这样才能使实验的总变异分解为各种原因引起的变异,然后确定各变异在总变异中所占比例,从而去欸的那个处理效应的大小。

3.. 方差齐性

    方差齐性是指不同的处理不能影响随机误差的方差,如果出现个别组的方差远大于或者远小于其他组,要进行数据的剔除或者转化(比如对数转换).

三、推导公式

    要看懂公式的推导需要学过高等数学。方差是离均差平方(SS)(就是方差公式的分子)和除以自由度(方差公式的分母,这里称为自由度)的商。要将总变异按照变异来源分解为相应的变异,首先要将总平方和与总自由度分解为各个变异来源的相应部分。

下面将总自由度分解为组间自由度与组内自由度。

得到组间方差与组内方差后,就可以进行F检验。

F检验的目的是判断组间方差与组内方差的差异是否在某一指定的置信度下具有显著性。为什么要这么做?因为组间方差体现出了经过不同处理的几组样本的差异,代表不同处理的效果;而组内方差体现了同一处理条件下不同重复的差异,代表系统误差。如果不同的处理效果不能与系统误差有显著性差异,那么就说明不同的处理对于实验结果没有显著影响;反之,则该种处理会引起实验结果的显著变化。

F检验的结果可以判断出组间的差异是否明显,但是不能进行两两比较。想要知道哪些组(有多种处理条件的情况下)两两之间的差异是显著的,就需要进行多重比较。这里介绍两种多重比较的方法——最小显著差法(LSR)法与TukeyHSD法。后者TukeyHSD法较为流行。

LSR法的原理是先计算出两组间达到显著性差异的最小差数,记为LSD,然后用两组数据的平均数的差的绝对值与LSD比较,

另一种更受欢迎的方法是TukeyHSD法。

采用Tukey检验法时,只要计算一个数值,就能借以完成所有各对平均值之差的比较。这个数值称为HSD,由以下公式给出:

q与显著性水平α,实验中的组数k以及误差自由度dfe有关,可通过查表得出,同时还可查表获得MSE的值,分母nj表示两组的实验重复次数。

四、方差分析的实现

一.one-way anova

适用条件: 只有一个因素(自变量)的处理。比如:不同浓度的试剂处理细胞24h后细胞密度的变化,重复三次实验。这个实验只有一个自变量,即试剂的浓度,是组间误差(不同实际浓度引起的细胞密度差异)的主要来源,环境等因素是组内误差(不同重复引起的细胞密度差异)的主要来源,细胞密度是因变量。

用R语言实现:

#使用aov()函数

attach(你的数据)

res<-aov(细胞密度~试剂浓度)

summary<-res

detach(你的数据)

#以上得出F检验的结果,下面是多重比较,使用TukeyHSD()函数

multires<-TukeyHSD(res)

multires

很简单的代码,我就不跑了,所以没有结果展示哈。

用Prism实现:

No matching非成对检验,并且认为方差相等,一般来说只要每组数据大小差的不是很方差都是相近的。

多重比较,选第二个第三个均可,根据你的目的

点击OK就出现结果了。

F值是10,P值是0.0044,说明不同浓度的试剂对于细胞密度具有显著性影响。

多重比较的结果告诉我们哪些浓度的试剂对细胞密度的影响具有两两间的显著性差异。

二. two-way anova

适用条件:有两个因素(自变量)的处理,比如用不同浓度的试剂处理细胞6,12,18,24小时,细胞密度的差异。这里的自变量有2个,试剂的浓度与时间。

用R语言实现:

attach(你的数据)

res<-aov(细胞密度~浓度*时间)#注意,若2种处理的组数不同,则*前后的2个因素调换位置结果会不同!

detach(你的数据)

multires<-TukeyHSD(res)

multires

用Prism实现:

这样输入数据,每一列是不同的处理时间,每一行是不同的试剂浓度

上图中选择方差不齐,因为处理24小时的数据大小大约是处理6小时的2倍。

我们先先看一下同一处理时间,不同的浓度对细胞浓度的影响,那么comparison选择下图的标签。如果要看同一浓度,不同时间对于细胞浓度的影响,那么要改变所选的标签。

选择Tukey法进行多重比较。

结果见下图

以上就是本文的全部内容,因没有开启评论功能,有问题请留言。最近比较忙,可能回复不及时。

上一篇 下一篇

猜你喜欢

热点阅读