统计学（66）-多重比较筛选基因

2020-02-19 本文已影响0人 Zhigang_Han

多重比较并不仅仅意味着方差分析后的两两比较，还包含了多个指标的多次比较。

1、FWER

在多重比较方法中，不同的比较策略采用的思路不同，常见的一种思路是控制FWER ( Family-Wise Error Rate) 。如果我们进行所有可能的两两比较（如A 、B 、C 3组， A 与B 、A 与C 、B 与C 均比较），这就称为一个Family 。假定以0.05为检验水准，那么执行3次两两比较，只能保证其中一次的I 型错误率（假阳性率）不超过5%, 但无法保证3次都不超过5% 。为了确保在任意一次的两两比较中Ⅰ型错误率都不超过5%,就需要控制FWER 。也就是说， FWER是多次两两比较中犯Ⅰ型错误的概率。

2、控制FWER的方法

（1）控制FWER 比较典型的方法就是Bonferroni 法，该法根据比较次数k, 将每次比较的Ⅰ型错误率（设为0.05) 控制在0.05/k之内。如3组共需两两比较3次，则每次比较的Ⅰ型错误率不超过0.05/3=0.0167, 这样所有3次比较的Ⅰ型错误率就不超过5%。
（2）但控制FWER有时过于苛刻，尤其在比较次数很多的时候，如比较100次，必须把Ⅰ型错误率控制得非常低，这样反而会增大Ⅱ型错误率（假阴性率）。
想象一下，如果有1万个基因，那么检验水准就变成了0.0005%, 几乎很难找出有意义的基因。
（3）因此，有的统计学家提出了FDR (False Discovery Rate) 这一概念。FDR的含义是：多重比较在所有拒绝H0的次数中，错误拒绝H0（假阳性）所占的比例。如比较100 次，共有20次拒绝H0，其中有4次错误地拒绝了H0，则FDR=4/20=0.2。

3、FDR法基因筛选

（1）首先将n个基因的原始P值从大到小排序，将最大P值赋为n, 将最小P值赋为1。

image.png
其中， n表示所有的基因个数， i表示从小到大第i个P值的顺序数字。
（2）看图理解校正P值

image.png
注意一点：第三大的原始P值0.0192, 如果按公式计算，则其校正P值为0.0195x(6/4)=0.0288, 但是FDR在计算校正P值时，需要将当前计算值与上一个计算值相比较，取二者中的最小值。比如，第三大原始P 值所计算的校正P值为0.0288, 与上一个校正P值0.0282相比， 0.0282更小，因此这里的值不是0.0288, 而是0.0282 。
我认为这是为了避免过校正的问题。

统计学（66）-多重比较筛选基因

1、FWER

2、控制FWER的方法

3、FDR法基因筛选

猜你喜欢

热点阅读