mutiple testing correction
2019-05-25 本文已影响4人
BioLearner
目的:
多次检验导致的大量假阳性
1. 如果是小概率事件(< 5%),我们就抛弃了最初的美好假设(H0:没有差异),认为观测的和预期不一样(接
受H1);
2.但是依然有5%的概率,他们其实真的是一样的(小概率事件发生了)。那么我们就错误地否认了H0,这个犯错
的概率是5%(假阳性);
3.如果检验一次,犯错的概率是5%;检验10000次,犯错的次数就是500次,即额外多出了500次差异的结论(即
使实际没有差异)。
多重检验校正,提高阈值:
1.提高阈值是为了控制假阳性的次数;
2.于是出现了多重检验校正;
方法:
1、Bonferroni
最简单而严厉的方法:Bonferroni法例如:如果检验10000次,将阈值降低到,阈值N=5%/ 10000=0.000005;即使检验10000次,N X 10000 = 5%。预期犯错的次数还是不到1次,抹杀了一切假阳性的概率。
Bonferroni校正阈值的公式为:p*(1/n),p为普通的阈值,n为检验次数。
最简单的方法:Bonferroni法问题:阈值太低(检验过于严格),结果找不到显著基因了(假阴性)。
2、FDR
FDR( False Discovery Rate)用比较温柔的方法调整,试图在假阳性和假阴性间达到平衡(即,不是不让假阳性出现,只是将假/真阳性比例控制在一定范围内);
我们目标是试图得到一个校正后的阈值,来实现:在发现的差异结果中,假阳性控制在极低比例;例如,检验10000次,无论我们得到多少差异基因,能不能保证其中定性为差异基因结果中,错误率在5%以内。如果找到差异基因100个,我能做到拍着胸脯说:“假的差异基因不多于5个”。这就叫FDR< 5%。
BH 方法的公式为:p*(m/k),其中的p为普通的p-value,m为检验次数,k为此次检验的p-value在所有检验次数中的排名。
FDR、Q value、adjusted p value
• P value:衡量假阳性率的指标(False positive rate) ;
• q value:衡量错误发现率的指标(False discovery rate,简称FDR)。即:使用Q value的这个参数预估FDR。
由于Q value 需要利用公式从P value 校正计算后得到,所以Q value 通常又被称为adjusted p value。
所以一般情况下:我们可以认为Q value = FDR = adjusted p value,即三者是一个东西,虽然有些定义上的细微区别,但是问题也不大。
P value 和 Q value的比较:
P value < 5% 和 Q value < 5% 的区别
P value
只为某一次检验负责;
这次检验的假阳性率(这次,我能犯错的概率)
Q value
Q value 是为所有次数的检验负责;
FDR在R中实现---p.adjust()
FDR阈值设置
q-value 常用0.05
但有时候看情况,如果候选物很多 就提高阈值,候选物不多就降低阈值,
人类基因组大概编码15000过个基因,如果有2、3000个基因符合最低阈值0.05,就要提高标准,比如0.001
细菌一般只编码2、3000个基因,如果有5,600都低于0.05,那就很多了,也需要提高标准,