genomeGWAS遗传学

计算SNPs间的连锁不平衡(LD,linkage disequi

2022-01-01  本文已影响0人  超级可爱的懂事长鸭

基本概念

连锁不平衡(LD,linkage disequilibrium)是指 不同基因座(loci)的等位基因(allele)之间非随机(nonrandom)的关联。

两个基因座互相独立不相关,即连锁平衡 linkage equilibrium 的状态。

常用的指标:D', r2(相关系数,correlation coefficient)【更常用】
当D'=0,r2=0时,处于完全连锁平衡状态
当D'=1,r2=1时,处于完全连锁不平衡状态。
其中,从0-1之间的度量越高,LD越高,如果两个位点连锁,连锁程度也越高。

计算方法

一、网站

https://ldlink.nci.nih.gov/

二、PLINK 1.90

https://www.cog-genomics.org/plink2/

1.计算两个SNP之间的LD
plink --bfile mydata --ld rs2840528 rs7545940

原理:采用EM algorithm、基于haplotype frequencies的计算

ld.png
2.计算多个SNP之间的LD
plink --file mydata --r

或者

plink --file mydata --r2

结果会生成一个后缀为.ld的文件

原理:基于等位基因数的计算

其他筛选指标:
--ld-window 10
计算10个相关的SNP之间的LD,默认值为 10
--ld-window-kb 1000
计算的区间,默认值1Mb
--ld-window-r2 0.2
r2的阈值,默认值0.2,如果需要输出所有LD结果,则设为0

3.计算特定一个SNP与其他SNP之间的LD
plink --file mydata
--r2
--ld-snp rs12345
--ld-window-kb 1000
--ld-window 99999
--ld-window-r2 0

计算距离rs12345位点1Mb范围内的所有位点的LD值

如果需计算rs12345与指定snp list之间的LD,则采用

--ld-snp-list mysnps.txt
4.用clump计算SNPs之间的LD

原理:基于SNP之间LD的一种经验估计方法
首先需要计算SNP与观察结局之间的关联性(即准备一个.assoc文件)
再使用下面代码

plink --file mydata --clump mytest1.assoc

结果会生成一个后缀为.clumped的文件

其他筛选指标:

main parameters.png

参考:
https://zhuanlan.zhihu.com/p/362250519
https://www.cog-genomics.org/plink/1.9/
https://zzz.bwh.harvard.edu/plink/tutorial.shtml

上一篇 下一篇

猜你喜欢

热点阅读