genome作图GWAS专题

GWAS分析- P值计算过程 (七)

2021-12-05  本文已影响0人  杨博士聊生信

目前针对GWAS分析有很多软件,比如Plink、 Tassel、Gapit、EMMAX、gemma和GCTA等等,这些软件通过输入基因型文件和表型文件,可以直接求出每个标记对应的P值。那么大家有没有好奇在GWAS中P值是如何一步步计算出来的?为了更好理解P值,在这里给大家讲一下P值的计算过程。

首先借助图1中SNP与血压的例子,理解几个基础的统计学概念:
假设检验
➢零假设(H0): 标记与表型无关,即SNP不影响表型。
➢备择假设(H1):与零假设对立的假设,即所选SNP与表型显著关联。
➢若零假设成立的概率很低(<0.05或者<0.01),则拒绝零假设,接受备择假设;否则接受零假设。

image.png
图1. 关于血压与标记的遗传关联研究。(A)相比于右边SNP,左边SNP与血压更相关。(B)零假设(H0),假设SNP不影响表型。(C)备择假设(H1),假设SNP与表型显著关联。

两类错误与统计功效
➢I类错误(Type I error): 也叫“弃真错误”,H0为真,统计推断拒绝H0,即假阳性,概率𝞪为显著性水平;
➢II类错误(Type II error): 也叫“取伪错误”,H1为真,统计推断接受H0,即假阴性,概率为𝞫;
➢功效(Power)
检验功效=1-犯第二类错误的概率

image.jpeg
接下来,我们就以Case/Control关联分析(病例/对照关联分析)为例,来介绍一下P值计算过程。

Note: Case/Control研究中,一般可以用pearson (1900)推导的X2 公式来分析,其为:

image.png

Case/Control设计

➢收集受影响个体(病例)和未受影响个体(对照)的样本;

➢检查基因位点上存在的等位基因是否与疾病之间存在关联;

➢在双等位遗传位点上,每个个体可以有3种可能的基因型中的一种

1|1, 1|2 = 2|1, 2|2

统计每种基因型在病例和对照中的个数,画列联表如下(表中数据为来源于Heather J. Cordell, Institute of Genetic Medicine Newcastle University, UK),分别计算行列总数以及总和(N)


image.jpeg

➢可以重新排列表格以假设显性/隐性效应:


image.jpeg
image.jpeg

➢还可以重新排列表格以检查等位基因的影响(df=1):


image.jpeg
➢每个单元格中的期望值 (E)=(行总数×列总数)/N
image.png
➢ df=(col-1)*(row-1)=(2-1)(2-1)=1,χ2 = ∑i(Oi − Ei)2/Ei,其中Oi和Ei是单元格i中的观察值和期望值。
image.png

若P值较低(<0.05或者<0.01),则拒绝零假设,接受备择假设,证明等位基因和病例相关;否则接受零假设。

我们有三种方法得出P值:
第一种:查表,利用自由度和X2查看对应的P值;
第二种:利用R

>1-pchisq(39.86,df=1)
2.728338e-10

第三种:利用Excel中函数CHIDIST, 求P值


image.png

可知,P = 2.728338e-10,不符合卡方分布,拒绝零假设,接受备择假设,证明该等位基因与病例相关。

对于复杂的性状,后期继续进一步分析。

往期回顾:
GWAS分析 (一)
https://www.jianshu.com/p/67e1878845e3
GWAS分析-曼哈顿图 (二)
https://www.jianshu.com/p/fa261b6045c2
GWAS分析-常用文件格式 (三)
https://www.jianshu.com/p/ad47f575e83b
GWAS分析-R包GAPIT (四)
https://www.jianshu.com/p/9944bcbfe3c7
GWAS分析-多个性状的manhattan组合图绘制(五)
https://www.jianshu.com/p/b376a86cb7e3
GWAS分析-P值和beta值的爱恨相杀 (六)
https://www.jianshu.com/p/82ec29f8dc7a

上一篇下一篇

猜你喜欢

热点阅读