GWAS理论 1-4 关联分析模型和常用软件介绍
一、Case-Control 关联分析模型 (第一部分主要是在人类中)
卡方检验举例
逻辑回归
逻辑混合模型
二、(动植物)数量性状关联分析模型
加性模型(GAM)
当线性模型的种种条件不能满足时,就要考虑用平滑性模型来替代。平滑性模型可以对非线性关系建模,也被称之作加性模型。加性模型是一般加性模型(GAM)的一类,是具有高斯分布的一般加性模型。
参考网址https://www.jianshu.com/p/54595077f142
GLM非连锁相关的影响:
1,人工填补的位点
2,群体结构,材料亚群分化会有一定的特异性位点,就可能导致结果跟群体相关,但是跟性状无关的位点被关联出来,需要提前在群体结构那部分就检测一下,如果存在群体结构的影响就要把群体结构当成协方差,把这种位点校正掉。
但是会存在一些问题,比如你的性状刚好跟群体结构有关,如果去掉了就关联不到想要的位点了。
3,亲缘关系,材料间的共祖关系也会导致非连锁相关。这样的话就要加上kinship作为随机效应(也就是误差项)。
MLMGLM 模型里面只有固定效应,没有随机效应。
Y ,表型
SNP ,固定效应(就是我们要的基因型)这个是我们要检测的
Q or PCs ,固定效应,去校正群体结构(二者选一,都可以,没有哪一个更好的说法) 这个是作为一个背景控制
e ,残差,系统误差,测量误差
MLMMMLM 相较于 GLM 多了一个随机效应,Kinship 。
关联分析模型QTN ,数量性状SNP,就是控制 QTL 的 SNP
然后就是不停的进行迭代
综述文章
模型评价
t-test 模型最差
FarmCPU 模型最优,最贴合期望值(实线部分)。这个如果理解 QQ plot 的应该很容易理解这个图
三、关联分析常用软件介绍
plinktassel这里一定要注意在平常动植物中,不使用plink 进行关联分析,可以在数据过滤处理的时候使用,但是在关联分析的时候不使用。一般是在人类 GWAS 才会使用 plink 进行关联分析。因为它没办法实现复杂模型,就是 MLM 那些。
gapit在动植物中关联分析 tassel 使用的最多。
上百万标记,几百个样本要几十G 上百G 内存。
emmax主要是基于 R 软件
gemma在 gapit 中可以实现
其他软件主要是多了一个 BSLMM(贝叶斯稀疏线性混合模型)
eQTL比如现在常见的 GCTA(全基因组复杂性状分析)(主要用在人类中)等等其他的
首先 QTL 是数量性状位点,比如身高是一个数量性状,其对应的控制基因的位点就是一个数量性状位点,而eQTL就是控制数量性状表达位点,即能控制数量性状基因(如身高基因)表达水平高低的那些基因的位点。
数量性状基因座:控制数量性状的基因在基因组中的位置称数量性状基因座。常利用DNA分子标记技术对这些区域进行定位,与连续变化的数量性状表型有密切关系
表达数量性状基因座(expression Quantitative Trait Loci,eQTL)是对上述概念的进一步深化,它指的是染色体上一些能特定调控mRNA和蛋白质表达水平的区域,其mRNA/蛋白质的表达水平量与数量性状成比例关系。eQTL可分为顺式作用eQTL和反式作用eQTL,顺式作用eQTL就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的mRNA水平变化;反式作用eQTL是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA水平的差异。
eQTL就是把基因表达作为一种性状,研究遗传突变与基因表达的相关性: 就好像研究遗传突变与身高的相关性一样。
早年可以通过同时做一个个体的SNP芯片和cDNA芯片, 在全基因组尺度研究突变与表达的相关性, 这种研究需要较多个体(例如1000个); 现在随着深度测序的出现,很多人开始用RNA-Seq在较少量个体中研究allele-specific expression,本质上就是eQTL。
简单地说, 遗传学研究经常发现一些致病或易感突变, 这些突变怎样导致表型有时候不太直观; 所以用某个基因的差异表达作为过渡: 突变A-->B基因表达变化-->表型;
这部分主要能掌握 tassel 就可以了 !!