GWAS分析-P值和beta值的爱恨相杀 (六)

2021-11-14 本文已影响0人杨博士聊生信

前面已经简单介绍过GWAS的概念，GWAS分析中所用到的文件以及分析流程，我们在GWAS分析结果文件中经常会看到beta值和P值，他们分别代表什么意思？这两个值又有什么关系呢？

我们先来看一下EMMAX软件分析结果都有哪些内容。

image.jpeg

其中，第一列代表SNP ID, 第二列代表beta, 第三列代表P-value。
beta和P-value在GWAS中到底代表什么意思，他们具体什么关系呢，是不是P-value越小，beta值越大呢。
beta: 等位基因1的效应大小估计，也称为等位基因的效应值。
P-value: 是目标SNP与表型是否显著关联。小的P-value被视为零假设（目标SNP与表型无关系）可能不成立，即备择假设成立，也就是目标SNP与表型有关系）的证据。

p-value具体计算过程较复杂，下一期再讲，这一期我们会先讲解一下beta值是如何计算出来的，这就引出了GWAS涉及的公式——最小二乘法。

image.jpeg

我们举个例子来方便大家理解。

image.jpeg
如图所示，假设有一个SNP位点，是SNP008: G > A
我们定义A为风险位点，以加性模型为例：一个G = 0, 一个T = 1，即GG = 0, AG = 1， AA = 2
根据上面公式（1）：
SNP对应的x值分别为：2，2，1，2，1，0，0，2，2，0
表型对应的y值分别为：189，180，171，192，173，160，162，183，190，158

image.jpeg
我们的任务就是找到合适的a和b,使得
(2a + b – 189)^2 + (2a + b – 180) ^2 + (1a + b – 171) ^2 + (2a + b – 192) ^2 + (1a + b – 173) ^2 + (0 + b – 160 ) ^2 + (2a + b – 183) ^2 + (2a + b – 183) ^2 + (2a + b – 190) ^2 + (0 + b – 158 ) ^2结果最小。

我们可以借助R计算一下：

image.jpeg

拟合结果是，a最优值为13.47368，b最优值为159.6316 ，公式y= 13.47368 x + 159.6316
回归到全基因组关联分析中，这里a值即为beta值，是13.47368。

部分小伙伴认为效应值beta越大, P值一定就越小，其实这种理解是错误的，它们完全是两回事。

GWAS分析的大致思路可以简单归为以下几点：
Step1: 将对应的基因型转换为0，1，2的形式，这里将主效纯合基因编码为0，杂合基因型编码为1，次要纯合基因编码为2；
Step2: 将基因型输入向量x, 研究的表型输入向量y;
Step3: 对x和y做回归分析，y= ax + b, 其中a即为效应值，a是否显著即为P value

我们先利用R将上面身高例子利用最简单的线性模型进行关联分析一下。

#首先将基因型和身高分别输入x和y
x=c(2,2,1,2,1,0,0,2,2,0)
y=c(189,180,171,192,173,160,162,183,190,158)
height = lm(y ~ x)
summary(height)

image.jpeg

我们发现该方法和前面我们求出来该位点效应值一样，都是13.474, 同时该位点与身高显著关联，P value = 1.02e-05。

接下来，我们看一个效应值(beta)较大，不显著（P value较大）的例子。

自己造数据。

#基因型0，1，2
x = rep(c(0,1,2),4)
x

#模拟的表型值
y = 13*x + rnorm(12)*20
y
# 作回归分析
sim = lm(y ~ x)
summary(sim)

image.jpeg

我们可以看到效应值为7.865，P value为0.17，不显著。我们做散点图看一下出现效应值较大，不显著，在图形上具体怎么表现？

# 作散点图
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')

image.jpeg

然后，我们再看一个效应值(beta)较小，极显著（P value较小）的例子。

自己造数据。

#基因型0，1，2
x = rep(c(0,1,2),4)
x

#模拟的表型值
y = 0.5*x + rnorm(12)*0.05
y
# 作回归分析
sim = lm(y ~ x)
summary(sim)

image.jpeg

我们可以看到效应值为0.491590，P value为1.44e-12，极显著。我们做散点图看一下出现效应值较小，极显著，在图形上具体怎么表现？

# 作图
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')

image.jpeg

我们可以简单理解一下，效应大不显著的位点是那些SNP对表型影响较大，但容易受外界环境影响，或者由于误差造成的个体之间表型较离散；效应小极显著的位点是那些SNP对表型影响较小，但是不易受外界环境影响，对表型影响较为稳定的位点。

总之，大家记住效应值beta和P值没有必然的联系，它们不是一回事即可。

往期回顾：
GWAS分析 (一)
https://www.jianshu.com/p/67e1878845e3
GWAS分析-曼哈顿图 (二)
https://www.jianshu.com/p/fa261b6045c2
GWAS分析-常用文件格式 (三)
https://www.jianshu.com/p/ad47f575e83b
GWAS分析-R包GAPIT (四)
https://www.jianshu.com/p/9944bcbfe3c7
GWAS分析-多个性状的manhattan组合图绘制(五)
https://www.jianshu.com/p/b376a86cb7e3

GWAS分析-P值和beta值的爱恨相杀 (六)

接下来，我们看一个效应值(beta)较大，不显著（P value较大）的例子。

然后，我们再看一个效应值(beta)较小，极显著（P value较小）的例子。

猜你喜欢

热点阅读