4 控制错误发现率

2022-01-30  本文已影响0人  老姚记事本

4.1 正确与错误的发现

假设我们有一种决策方式D,它对N个假设决策如下:

图中a为错误的发现,b为正确的发现
则FWER为a大于0的概率,而a/R被称为错误发现比率(false discovery proportion)

4.2 Benjamini和Hochberg的FDR控制算法

如果在零假设下的P值服从01均匀分布
H_{0i}:p_i \sim U(0,1)
定义排序后的p值为
p_{(1)}, p_{(2)},..., p_{(N)}

Benjamini–Hochberg过程为:取q在0到1之间,定义i_{max}为满足p_{i} \leq \frac{i} {N} q的最大i,并拒绝所有i \leq i_{max}对应的H_{0(i)}

定理4.1
如果真正的零假设对应p值是互相独立的,则BH过程对应的BH(q)错误发现比例期望值为q
E \{ Fdp_{BH(q)} \} = \pi_0 q \leq q
其中\pi_0 = N_0 / N

显然FDR比FWER更自由,那它可信么?下面是一些问题,它们会在后面通过经验贝叶斯解决。

4.3 经验贝叶斯解释

如果用F_0表示零假设的cdf,则p值为:
p_i = F_0(z_i)
z_i可以等于p_i,此时F_0(z_i) \sim U(0,1)
z排序:z_{(1)} \leq z_{(2)} \leq,...,z_{(N)}
由于z_i的经验cdf值为\# \{ z_i \leq z \} / N,则z_i的经验cdf值为

结合上节,BH的阈值可转换为:




结合第二章大规模假设检验2.3,左式为经验贝叶斯错误发现率(分子为H0误判累积概率,分母为推翻零假设的混合概率估计)。

根据贝叶斯规则:
Fdr(z) = \pi_0F_0(z)/F(z)

由于\pi_0未知,可以取它的上界1(会导致更加严格)计算,此时:


并拒绝小于z_{max}的H0。此时频率派与贝叶斯派的结果得到统一!
在贝叶斯视角下,前文提到的一些问题得到解答:

4.4 FDR控制是“假设检验”么

一般认为BH过程是多重假设检验过程,但是在4.3的解释中似乎不太像,怎么理解它呢?
假设我们选择的决策区间为\mathcal R,H0下落入区间的期望数为e_0 ( R),R为观测到的显著数,则估计的错误发现率为:


由于当它小于q时我们认为这R个假设显著,也就是判断等价于为R的不等式

在泊松独立假设下


显然可以找到某个显著水平为“\alpha”级别的显著规则
R \geq Q_\alpha
经验贝叶斯发现率控制后,会处于“R个发现全部为真”和“R个发现中存在真”之间。它更像是一个估计而不是检验统计量:对R个发现中的错误比例进行估计。

4.5 Benjamini–Hochberg算法的变种

以下介绍两种。


4 选择一个正的常数\Delta,定义如下区间

也就是说C_{up}是第一个Z_i超出经验区间的点,C_{lo}是第一个低于经验区间的点。
上图中\Delta=0.7C_{up}(\Delta)=3.29C_{lo}(\Delta)=-3.34
5 定义R(\Delta)[C_{lo}(\Delta), C_{up}(\Delta)]区间外的z_i的数量,而R^*(\Delta)是对应的z_i^{*b}数量
6 最终可以计算得到对应的

SAM过程通过搜寻\Delta,使6中结果等于预设的q,从而控制FDR水平。
为什么可以控制?
将4区间外的认为显著,则显著的累积经验概率为

同理,零假设下显著的累积经验概率为
因此
上一篇下一篇

猜你喜欢

热点阅读