GWAS笔记2-连锁不平衡LD
连锁不平衡(linkage disequilibrium)是进化生物学与人类遗传学中一个十分重要的概念,因为遗传过程中很多因素能够影响它,而它又会作用于很多因素,包括选择,重组频率,突变率,遗传漂变,交配模式,群体结构等等。反过来看,连锁不平衡就是反应群体遗传过程的一个强有力的信号。
连锁不平衡 是指不同基因座(loci)的等位基因(allele)之间非随机(nonrandom)的关联。
首先考虑简单的两基因座情况,设有A, B两个基因座,每个基因做各有两个等位基因,分别用1,2表示。假设每个单倍体型的频率如下所示:
单倍型的频率由上 单倍体型的频率 ,我们也可以简单计算得到各个等位基因的频率:
等位基因频率如果这两个基因座互相独立不相关(也就是连锁平衡 linkage equilibrium 的状态),那么各个单倍型的频率就可以直接算出,为p1q1 ,p1,q2 , p2q1, p2q2
而实际情况中单倍型的频率对于不相关情况下的理论值会产生偏离(deviation),这个偏离原因即为连锁不平衡( linkage disequilibrium ),偏离的程度通常记为 D (连锁不平衡系数,coefficient of linkage disequilibrium)
下图表示了各单倍型频率,各等位基因频率与D之间的关系。
image.png但要注意的是,D值并不是一个用来衡量LD的很好的指标,因为D值会受等位基因频率影响,这使得我们无法比较不同频率的等位基因对之间连锁不平衡的大小。
Lewontin提出通过标准化D值来解决该问题,即用D值除以理论上D可能的最大绝对值。
但更多的时候我们使用相关系数(correlation coefficient)r2来衡量LD。r2=0:独立遗传;r2=1:完全连锁。
相关系数也就是我们常常在局部曼哈顿图中所看到的LD r2
r2参考
https://gwaslab.org/2021/04/04/连锁不平衡-linkage-disequilibrium-ld/
https://en.wikipedia.org/wiki/Linkage_disequilibrium