新冠肺炎和卡方检验扯上关系？用卡方检验聊聊为什么专家说A型血人群

2020-03-20 本文已影响0人 Yan文怡

3月16日，一项刊登在MedRxiv的研究论文显示：A型血的新冠肺炎感染风险更高，O型血感染风险较低。研究团队统计分析2173名新冠肺炎患者情况，对比3694名健康者得出此结论。业内人士介绍，该研究中A型血、O型血的P<0.001，能够说明血型对于新冠肺炎敏感性的大概情况。

紧接着，各公众号，蹭了一波热度！

事情起因：2020年3月17日，在一个叫medRxiv平台上，发布了一篇不同血型和感染新冠肺炎的相关性的论文

接下来，很多公众号开始互相转载。

看了文章的朋友们，一家欢喜一家愁。

A型血的朋友，看完文章不淡定了，纷纷掏出手机，打开淘宝，悲伤地下单100只口罩，但又因为限购，无奈的摇了摇头；

O型血的朋友，慷慨的向A型血朋友，低价出售自己的口罩，“旁友，口罩要伐？

为什么看完这篇文章有这个反应呢，

因为文章说：

武汉健康人血型分布是：

A型血32%，B型血25%，AB型血9%，O型血34%

这次武汉金银潭医院里感染新冠肺炎的人是：

A型血38%，B型血26%，AB型血10%，O型血26%。

论文通过卡方检验结合其他检验，得出A型血容易感染，O型血不容易感染。

不懂统计的人，也是赞成A型血容易感染的；

因为他们觉得，正常A型32%，染病A型38%，感染的人比正常多6%。而且和其他几组比起来差值要高，所以觉得A型确实相对容易感染。

但如果是统计角度的检验，应该怎么得出结论呢？

论文说了，他们用的是卡方检验得出的这些结论的。

学了那么久的数据分析的同学们，相信对卡方检验这个词语应该不陌生，现在到了你们活学活用的时候了，卡方公式在这里，应该怎么算？

想不出的话，就往下看吧。

声明：这篇文章主要带着大家进一步了解卡方检验，如何一步一步演算，推倒出论文的结论。
至于很多人都在质疑那篇医学论文的权威性，指出这种取样方式做结论是不对的。这个不在我这篇文章的讨论范围。
我只是用一个大家最关心的日常问题切入，深入浅出的普及数据分析。

论文样本数据的截图：

武汉健康的人：3694人
A型1188 (32.16%)
B型 920 (24.90%)
AB型 336 (9.10%)
O型 1250 (33.84%)

武汉金银潭医院患新冠的人：1775人
A型 670 (37.75%)
B型 469 (26.42%)
AB型 178 (10.03%)
O型 458 (25.80%)

先看看数据是怎么搜集来的:

首先: 卡方检验是什么？

基础知识普及：百度，Google排名第一页的热搜文章：
结合日常生活的例子，了解什么是卡方检验

卡方检验的公式是：

那么问题来了，

现有的这些数据，如何带入上面这个公式？

第一种人，带什么，怎么带，完全不知道；
第二种人，觉得应该是X2=(38%-32%)/32%。
O是38%，因为O代表观察值，32%是E，因为E是期望值。看起来蛮有道理的。
但是，是错的。

下面说一下，这些取样结果是怎么带入的公式，算出这个卡方值的。

首先，把数据放到这个表格里，
这是我们观察到的实际的患病和健康人的分布。
（我们把这类表格叫 contingency tables)

观察表格：

根据下面的公式，我们可以算出预期表格：

计算过程：

预期表格：

我们可以看到：

观察表格和预期表格里面的Total列的值都不变，变的是4个格子里的值，
4个格子的值，就是按照Total的比例来重新分布这些值。

整理观察和预期表格：

带入公式

= (1188-1255)^2/1255 + (670-603) ^2/603 + (2506-2439)^2/2439 + (1105-1172)^2/1172
= 16.4

Degree of freedom = 1 (不知道为什么是1的朋友，可以再回去看看那篇卡方检验普及文章)

接下来，我们带着自由度1和16.4查卡方检验的图表：

因为degree of freedom = 1，我们看第1行，发现16.4，没有显示在图里。但是，我们看到，X2=6.63的时候，对应的 Probability (P value)已经是0.01了，16.4肯定远小于0.01了。

为了验证，我么用chi square 计算器验证

确实和结论一样

因为P值小于等于0.001，我们可以拒绝原来假设，接受另一个假设。

原假设是：正常人A型血占比和患病人A型血占比一样
原假设要是不成立，应该接受的另一个假设是：正常人A型血占比和患病人A型血占比不一样