FDR-P值是什么东西！

2018-12-11 本文已影响27人 caokai001

概念

FDR，Q value，adjust p value
p-value：衡量一次检验假阳性率的指标（False positive rate）；
q value：衡量错误发现率的指标（False discovery rate，简称FDR，所有检验中假阳性的概率）。即使用Q value的这个参数预估FDR。Q value 需要利用公式从p value 校正计算后得到，所以Q value 通常又被称为adjusted p value。所以一般情况下：我们可以认为Q value = FDR = adjusted p value，即三者是一个东西，虽然有些定义上的细微区别，但是问题也不大。

FDR

主要使用的校正办法有两种：Bonferroni 校正；FDR（FalseDiscovery Rate）校正

1.Bonferroni 校正

Bonferroni 校正法可以称作是“最简单粗暴有效”的校正方法，它拒绝了所有的假阳性结果发生的可能性，通过对p值的阈值进行校正来实现消除假阳性结果。

Bonferroni 校正的公式为p*(1/n)，其中p为原始阈值，n为总检验次数。

如果像我们举的例子一样，原始的P值为0.05，检验次数为10000次，那么在Bonferroni 校正中，校正的阈值就等于5%/ 10000 = 0.000005，所有P值超过0.00005的结果都被认为是不可靠的。这样的话假阳性结果在10000次检验中出现的次数为 10000 * 0.000005 =0.5，还不到1次。

但是这也存在问题：Bonferroni 委实太过严格，被校正后的阈值拒绝的不只有假阳性结果，很多阳性结果也会被它拒绝。

2.FDR（FalseDiscovery Rate）校正

相对Bonferroni 来说，FDR温和得多，这种校正方法不追求完全没有假阳性结果，而是将假阳性结果和真阳性的比例控制在一定范围内。

举个例子，我们最开始设定的情况中进行了10000次检验，这次我们设定FDR<0.05，如果我们的检验对象为差异表达的基因，那么在10000次检验中假如得到了500个基因，那么这500个基因中的假阳性结果小于 500*5% = 25 个。

FDR的计算方法有很多种，这里介绍一个比较常用的：

BH（Benjaminiand Hochberg）法：

BH 法需要将总计m次检验的结果按由小到大进行排序，k为其中一次检验结果的P值所对应的排名。

找到符合原始阈值α的最大的k值，满足P(k)<=α*k/m，认为排名从1到k的所有检验存在显著差异，并计算对应的q值公式为q = p*(m/k)。

举个例子，如果我们有总共六个结果进行FDR校正：

image

按α=0.05进行计算：

排名第四的 P (4) = 0.03 < 0.05*4/6 = 0.033，符合要求

排名第五的 P (5)= 0.045 > 0.05*5/6 = 0.041，不满足P(k)<=α*k/m，因此在这个列表里排名前四的G2,G6,G5,G4 为具有显著差异的基因。

我们也可以用q值进行FDR校正：

image

G3的q值大于0.05，故G2,G6,G5,G4 为具有显著差异的基因。

参考：

中科院生物信息学复习题图文百度文库
 多重检验校正
 多重假设检验：Bonferroni 和 FDR

FDR-P值是什么东西！

概念

FDR

1.Bonferroni 校正

2.FDR（FalseDiscovery Rate）校正

猜你喜欢

热点阅读

FDR-P值是什么东西！

概念

FDR

1.Bonferroni 校正

2.FDR（FalseDiscovery Rate） 校正

猜你喜欢

热点阅读

2.FDR（FalseDiscovery Rate）校正