42统计基础- 比率比和比率比对数

2021-01-12 本文已影响0人不到7不改名

什么是比率比和比率比对数

当人们说比率比(odds ratio),他们是在谈论比率(odds)的比(ratio)。

image-20201231113443987.png

当我们计算某件事的比率比(odds ratio)，如果分母大于分子，比率比为0~1。如果分子大于分母，那么比率比将从1到无穷。就像比率一样，取比率比的对数(log(比率比))会让事情变得完美和对称。

image-20201231114042339.png

比率比(odds ratio)的应用

比率比(odds ratio)的应用：我们有一群人(确切地说是356人)，29人患有癌症、327人没有，140人有突变基因、216人没有突变基因，我们可以使用“比率比”来确定突变基因和癌症之间是否存在联系，如果有人有突变的基因，那他们得癌症的几率会更高吗?有突变基因，患癌症的比率为23/117。没有突变基因，不患癌症的比率为 6/210。比率比和对数(比率比)类似于r平方，它们表明了两种事物之间的关系(在这个例子中，突变基因和癌症之间的关系)。就像r的平方一样，这些值对应的是效果大小(effect size)。较大的值意味着突变基因是癌症的良好预测因子。较小的数值意味着突变基因不是一个好的预测因子对于癌症。

image-20201231115733231.png

比率比和比率比对数P值的计算

然而，就像r²一样，我们需要知道这个关系是否具有统计学意义。有3种方法可以确定比率比(或log(比率比))是否具有统计学意义。一个超级恼人的事情是，对于哪种方法是最好，并没有普遍的共识，人们经常混合搭配。有些人经常使用费希尔检验和卡方检验去计算p值，使用Wald检验去计算置信区间。有些人用wald检验去计算p值和置信区间，可以确保p值和置信区间总是一致的，但要检查并看看你所在领域的其他人做了什么，以找出最可接受的方法。

费希尔精确检验(Fisher's Exact Test)
卡方检验(Chi-Square Test)
(The Wald Test)

现在让我们讨论如何使用卡方检验计算p值。卡方检验比较真实值和理论值，假设突变基因和癌症之间没有关系。为此，我们计算患癌症的概率p=29/356=0.08，然后计算有突变基因的140人中患癌和不患癌的理论值，计算没有突变基因的216人中患癌和不患癌的理论值。然后真实值和理论值做卡方检验，计算p值。

image-20201231122759817.png

Wald检验会充分利用log(odds ratios)，它通常是服从正态分布的，这是一个由1万个随机生成的log(odds ratios)组成的直方图，它告诉我们，如果突变基因和癌症之间没有关系，可能p值的大小。如果你想在家里画这个直方图，随机挑选的总人数在300~400。

我们选择的是325（数字位于300到400之间）；
针对每个样本选择一个0到1之间的随机数，例如0.01，0.73，0.95；
小于0.08的那些样本就是患癌症的人。例如，325个样本中有17个患癌症。
为每个样本再挑选1个位于0到1之间的随机数字；
小于0.39的那些样本就是含有突变基因的人。

这给了你一个随机值的矩阵，它不依赖于突变基因和癌症之间的关系。计算log(odds ratio)，做10000万次，然后绘制出直方图，在拟合一个正态曲线。注意：直方图和曲线的中心在0处，当比率没有差异时，log(比率比)=0，标准差为0.43。

image-20201231124911773.png

通常使用观测值来估计标准差=0.47

image-20201231125325848.png

Wald检验所做的就是看：log(odds ratios)与0之间有多少个标准差。由于Wald检验通常使用的是估计标准差，我们将用标准差=0.47，以0为中心的正态曲线替换直方图。计算可得log(odds ratio)=1.93，它位于曲线的右侧部分，此时我们计算一个这个值距离0有几个标准差，我们只用它除以标准差即可，1.93/0.47=4.11

image-20201231130322815.png

按照我们平时的计算规则，通常偏离2个标准差的p值会小于0.05，那么此时我们就可以知道log(odds ratio)在统计学上的显著的。不过，为了得到一个精确的双尾检验的p值，我们可以求出大于1.93以及小于-1.93的曲线下面积。然而，这传统上是使用标准正态曲线(即均值为0，标准差为1的正态曲线)来完成的。这意味着将>4.11和<-4.11的曲线下面积相加，其中4.11是log(odds ratio)离均值的标准差 ,最终我们计算的结果就是，突变基因与癌症之间没有关系的p值是0.00005

image-20201231130956347.png

三种方法总结

前面我们使用了3种方法来计算p值，当我们生成10000个随机的log(odds ratios)时，我们分别使用这3种方法来检验，如果检验符合预期，那么有5%的可能性p值是小于0.05的，如下所示：

图片

从这三种方法的计算结果来看，它们在限制p值方面都表现得很好，因此你所做的就是找出你自己专业领域中最常用的方法。就作者个人的看法，如果都能通过所有的检验，那么他会选择一个在边界上的p值。

42统计基础- 比率比和比率比对数

什么是比率比和比率比对数

比率比(odds ratio)的应用

比率比和比率比对数P值的计算

三种方法总结

猜你喜欢

热点阅读