42统计基础- 比率比和比率比对数
什么是比率比和比率比对数
当人们说比率比(odds ratio),他们是在谈论比率(odds)的比(ratio)。
image-20201231113443987.png当我们计算某件事的比率比(odds ratio),如果分母大于分子,比率比为0~1。如果分子大于分母,那么比率比将从1到无穷。就像比率一样,取比率比的对数(log(比率比))会让事情变得完美和对称。
image-20201231114042339.png比率比(odds ratio)的应用
比率比(odds ratio)的应用:我们有一群人(确切地说是356人),29人患有癌症、327人没有,140人有突变基因、216人没有突变基因,我们可以使用“比率比”来确定突变基因和癌症之间是否存在联系,如果有人有突变的基因,那他们得癌症的几率会更高吗?有突变基因,患癌症的比率为23/117。没有突变基因,不患癌症的比率为 6/210。比率比和对数(比率比)类似于r平方,它们表明了两种事物之间的关系(在这个例子中,突变基因和癌症之间的关系)。就像r的平方一样,这些值对应的是效果大小(effect size)。较大的值意味着突变基因是癌症的良好预测因子。较小的数值意味着突变基因不是一个好的预测因子对于癌症。
image-20201231115733231.png比率比和比率比对数P值的计算
然而,就像r²一样,我们需要知道这个关系是否具有统计学意义。有3种方法可以确定比率比(或log(比率比))是否具有统计学意义。一个超级恼人的事情是,对于哪种方法是最好,并没有普遍的共识,人们经常混合搭配。有些人经常使用费希尔检验和卡方检验去计算p值,使用Wald检验去计算置信区间。有些人用wald检验去计算p值和置信区间,可以确保p值和置信区间总是一致的,但要检查并看看你所在领域的其他人做了什么,以找出最可接受的方法。
-
费希尔精确检验(Fisher's Exact Test)
-
卡方检验(Chi-Square Test)
-
(The Wald Test)
现在让我们讨论如何使用卡方检验计算p值。卡方检验比较真实值和理论值,假设突变基因和癌症之间没有关系。为此,我们计算患癌症的概率p=29/356=0.08,然后计算有突变基因的140人中患癌和不患癌的理论值,计算没有突变基因的216人中患癌和不患癌的理论值。然后真实值和理论值做卡方检验,计算p值。
Wald检验会充分利用log(odds ratios)
,它通常是服从正态分布的,这是一个由1万个随机生成的log(odds ratios)
组成的直方图,它告诉我们,如果突变基因和癌症之间没有关系,可能p值的大小。如果你想在家里画这个直方图,随机挑选的总人数在300~400。
-
我们选择的是325(数字位于300到400之间);
-
针对每个样本选择一个0到1之间的随机数,例如0.01,0.73,0.95;
-
小于0.08的那些样本就是患癌症的人。例如,325个样本中有17个患癌症。
-
为每个样本再挑选1个位于0到1之间的随机数字;
-
小于0.39的那些样本就是含有突变基因的人。
这给了你一个随机值的矩阵,它不依赖于突变基因和癌症之间的关系。计算log(odds ratio)
,做10000万次,然后绘制出直方图,在拟合一个正态曲线。注意:直方图和曲线的中心在0处,当比率没有差异时,log(比率比)=0,标准差为0.43。
通常使用观测值来估计标准差=0.47
image-20201231125325848.pngWald检验所做的就是看:log(odds ratios)
与0之间有多少个标准差。由于Wald检验通常使用的是估计标准差,我们将用标准差=0.47,以0为中心的正态曲线替换直方图。计算可得log(odds ratio)=1.93
,它位于曲线的右侧部分,此时我们计算一个这个值距离0有几个标准差,我们只用它除以标准差即可,1.93/0.47=4.11
按照我们平时的计算规则,通常偏离2个标准差的p值会小于0.05,那么此时我们就可以知道log(odds ratio)
在统计学上的显著的。不过,为了得到一个精确的双尾检验的p值,我们可以求出大于1.93以及小于-1.93的曲线下面积。然而,这传统上是使用标准正态曲线(即均值为0,标准差为1的正态曲线)来完成的。这意味着将>4.11和<-4.11的曲线下面积相加,其中4.11是log(odds ratio)
离均值的标准差 ,最终我们计算的结果就是,突变基因与癌症之间没有关系的p值是0.00005
三种方法总结
前面我们使用了3种方法来计算p值,当我们生成10000个随机的log(odds ratios)
时,我们分别使用这3种方法来检验,如果检验符合预期,那么有5%的可能性p值是小于0.05的,如下所示:
从这三种方法的计算结果来看,它们在限制p值方面都表现得很好,因此你所做的就是找出你自己专业领域中最常用的方法。就作者个人的看法,如果都能通过所有的检验,那么他会选择一个在边界上的p值。