统计学(66)-多重比较筛选基因
2020-02-19 本文已影响0人
Zhigang_Han
多重比较并不仅仅意味着方差分析后的两两比较,还包含了多个指标的多次比较。
1、FWER
在多重比较方法中,不同的比较策略采用的思路不同,常见的一种思路是控制FWER ( Family-Wise Error Rate) 。如果我们进行所有可能的两两比较(如A 、B 、C 3组, A 与B 、A 与C 、B 与C 均比较),这就称为一个Family 。假定以0.05为检验水准,那么执行3次两两比较,只能保证其中一次的I 型错误率(假阳性率)不超过5%, 但无法保证3次都不超过5% 。为了确保在任意一次的两两比较中Ⅰ型错误率都不超过5%,就需要控制FWER 。也就是说, FWER是多次两两比较中犯Ⅰ型错误的概率。
2、控制FWER的方法
(1)控制FWER 比较典型的方法就是Bonferroni 法,该法根据比较次数k, 将每次比较的Ⅰ型错误率(设为0.05) 控制在0.05/k之内。如3组共需两两比较3次,则每次比较的Ⅰ型错误率不超过0.05/3=0.0167, 这样所有3次比较的Ⅰ型错误率就不超过5%。
(2)但控制FWER有时过于苛刻,尤其在比较次数很多的时候,如比较100次,必须把Ⅰ型错误率控制得非常低,这样反而会增大Ⅱ型错误率(假阴性率)。
想象一下,如果有1万个基因,那么检验水准就变成了0.0005%, 几乎很难找出有意义的基因。
(3)因此,有的统计学家提出了FDR (False Discovery Rate) 这一概念。FDR的含义是:多重比较在所有拒绝H0的次数中,错误拒绝H0(假阳性)所占的比例。如比较100 次,共有20次拒绝H0,其中有4次错误地拒绝了H0,则FDR=4/20=0.2。
3、FDR法基因筛选
(1)首先将n个基因的原始P值从大到小排序,将最大P值赋为n, 将最小P值赋为1。
其中, n表示所有的基因个数, i表示从小到大第i个P值的顺序数字。
(2)看图理解校正P值
image.png
注意一点:第三大的原始P值0.0192, 如果按公式计算,则其校正P值为0.0195x(6/4)=0.0288, 但是FDR在计算校正P值时,需要将当前计算值与上一个计算值相比较,取二者中的最小值。比如,第三大原始P 值所计算的校正P值为0.0288, 与上一个校正P值0.0282相比, 0.0282更小,因此这里的值不是0.0288, 而是0.0282 。
我认为这是为了避免过校正的问题。