群体遗传学GWAS数量遗传或生统

GWAS基石---混合线性模型

2019-05-31  本文已影响3人  佛系分析师

  使用混合线性模型(linear mixed model)做GWAS可以有效校正群体结构和群体内复杂的亲缘关系。因此,目前绝大多数的GWAS都是使用的混合线性模型。近年来,大量的算法也被提出用于提高混合线性模型的计算效率。我们耳熟能详的做GWAS的软件基本也都是基于混合线性模型的,如GAPIT、GCTA、GEMMA,EMMAX等。今天就来谈谈什么是混合线性模型。


GWAS.png

  首先要了解GWAS分析是主要使用单点扫描模型,一次只分析一个标记,一个标记一个标记地计算效应值,所以称之为扫描。先说明几个问题:

1. 为什么要扫描,不能一次性全部分析出来吗?
  最早做GWAS时,标记密度较稀疏,人们觉得标记于标记之间应该是独立的,因此不需要使用多元回归,只需要使用单变量回归即可。此外,一般来说GWAS分析的标记数都是大于样本数的。这种数据称为高维数据,是无法直接运用多元回归去求解的。这个情况类似于给你10个条件,却要你求100个未知数。高维数据的多元回归需要增加惩罚项(也称正则化)或者使用贝叶斯方法才可以完成。

2. 一般线性模型Y=X\beta + Z_{k}\gamma_{k} + e做GWAS的缺陷是什么?
  我们研究的表型绝大多数都同是受到多个基因影响。现在对于复杂性状,学界比较认可的模型是微效多基因模型:复杂性状受少数几个主效基因和大量微效基因控制。因此,使用一般线性模型进行单点扫描时,认为表型仅受该标记影响。这是不符合模型假设的,对于复杂性状一个标记能解释表型变异的5%已经非常高了。因此,我们求解时会造成严重的高估位点效应值,产生假阳性。

  混合线性模型GWAS的一般形式如下:
Y=X\beta+Z_{k}\gamma_{k}+\xi+e
  其中X\beta是固定效应,Z_{k}\gamma_{k}是当前标记效应(也被当做固定效应处理),\xi \sim {\mit{N}}(0,K\phi^{2})为多基因效应(其中K是标记计算得到的亲缘关系矩阵)。多基因效应这个概念比较复杂,实际上就是每个分析样本的遗传效应(即所有标记效应值的和)。这一项主要是大量的微效基因效应添加到模型中以校正遗传背景。因此混合线性模型比一般线性模型更符合微效多基因的假设了。


如果\xi \sim {\mit{N}}(0,K\phi^{2})是所有标记的效应总和,K是怎么来的?K\phi^{2}又是什么意思?

下次讲解亲缘关系矩阵K的推导。

上一篇下一篇

猜你喜欢

热点阅读