自然科普

新冠肺炎和卡方检验扯上关系?用卡方检验聊聊为什么专家说A型血人群

2020-03-20  本文已影响0人  Yan文怡

3月16日,一项刊登在MedRxiv的研究论文显示:A型血的新冠肺炎感染风险更高,O型血感染风险较低。研究团队统计分析2173名新冠肺炎患者情况,对比3694名健康者得出此结论。业内人士介绍,该研究中A型血、O型血的P<0.001,能够说明血型对于新冠肺炎敏感性的大概情况。

紧接着,各公众号,蹭了一波热度!
事情起因:2020年3月17日,在一个叫medRxiv平台上,发布了一篇不同血型和感染新冠肺炎的相关性的论文

接下来,很多公众号开始互相转载。

看了文章的朋友们,一家欢喜一家愁。

A型血的朋友,看完文章不淡定了,纷纷掏出手机,打开淘宝,悲伤地下单100只口罩,但又因为限购,无奈的摇了摇头; O型血的朋友,慷慨的向A型血朋友,低价出售自己的口罩,“旁友,口罩要伐?

为什么看完这篇文章有这个反应呢,

因为文章说:

武汉健康人血型分布是:

A型血32%,B型血25%,AB型血9%,O型血34%

这次武汉金银潭医院里感染新冠肺炎的人是:

A型血38%,B型血26%,AB型血10%,O型血26%。

论文通过卡方检验结合其他检验,得出A型血容易感染,O型血不容易感染。

不懂统计的人,也是赞成A型血容易感染的;

因为他们觉得,正常A型32%,染病A型38%,感染的人比正常多6%。而且和其他几组比起来差值要高,所以觉得A型确实相对容易感染。

但如果是统计角度的检验,应该怎么得出结论呢?

论文说了,他们用的是卡方检验得出的这些结论的。

学了那么久的数据分析的同学们,相信对卡方检验这个词语应该不陌生,现在到了你们活学活用的时候了,卡方公式在这里,应该怎么算?

想不出的话,就往下看吧。

声明:这篇文章主要带着大家进一步了解卡方检验,如何一步一步演算,推倒出论文的结论。
至于很多人都在质疑那篇医学论文的权威性,指出这种取样方式做结论是不对的。这个不在我这篇文章的讨论范围。
我只是用一个大家最关心的日常问题切入,深入浅出的普及数据分析。

论文样本数据的截图:

武汉健康的人:3694人
A型1188 (32.16%)
B型 920 (24.90%)
AB型 336 (9.10%)
O型 1250 (33.84%)

武汉金银潭医院患新冠的人:1775人
A型 670 (37.75%)
B型 469 (26.42%)
AB型 178 (10.03%)
O型 458 (25.80%)

先看看数据是怎么搜集来的:

首先: 卡方检验是什么?

基础知识普及:百度,Google排名第一页的热搜文章:
结合日常生活的例子,了解什么是卡方检验

卡方检验的公式是:

那么问题来了,

现有的这些数据,如何带入上面这个公式?

第一种人,带什么,怎么带,完全不知道;
第二种人,觉得应该是X2=(38%-32%)/32%。
O是38%,因为O代表观察值,32%是E,因为E是期望值。看起来蛮有道理的。
但是,是错的。

下面说一下,这些取样结果是怎么带入的公式,算出这个卡方值的。

首先,把数据放到这个表格里,
这是我们观察到的实际的患病和健康人的分布。
(我们把这类表格叫 contingency tables)

观察表格:

根据下面的公式,我们可以算出预期表格:

计算过程:
预期表格:

我们可以看到:

观察表格和预期表格里面的Total列的值都不变,变的是4个格子里的值,
4个格子的值,就是按照Total的比例来重新分布这些值。

整理观察和预期表格: 带入公式

= (1188-1255)^2/1255 + (670-603) ^2/603 + (2506-2439)^2/2439 + (1105-1172)^2/1172
= 16.4

Degree of freedom = 1 (不知道为什么是1的朋友,可以再回去看看那篇卡方检验普及文章)

接下来,我们带着自由度1和16.4查卡方检验的图表:

因为degree of freedom = 1,我们看第1行,发现16.4,没有显示在图里。但是,我们看到,X2=6.63的时候,对应的 Probability (P value)已经是0.01了,16.4肯定远小于0.01了。

为了验证,我么用chi square 计算器验证

确实和结论一样

因为P值小于等于0.001,我们可以拒绝原来假设,接受另一个假设。

原假设是:正常人A型血占比和患病人A型血占比一样
原假设要是不成立,应该接受的另一个假设是:正常人A型血占比和患病人A型血占比不一样

好了,A型血的结论出来了,接下来动动你的小脑子,算算B,AB,O的卡方值吧。
上一篇下一篇

猜你喜欢

热点阅读