使用GEMMA进行复杂性状全基因组关联分析(GWAS)
2019-05-28 本文已影响0人
佛系分析师
GEMMA(Genome-wide Efficient Mixed Model Association algorithm)是一款基于混合线性模型的GWAS分析软件(文献信息)。GEMMA相比较于其他基于混合线性模型的软件,它有如下优势:
- 快速:远远快于其他精确算法(EMMA和FaST-LMM)。
- 准确:EMMAX和GAPIT都采用固定零模型中的方差组分不变的策略来提高运算速度,这实际上就是一种近似算法,不如GEMMA准确。
- 方便:可直接使用plink二进制格式数据,无需进行复杂的数据格式转换。
- 功能全面:可进行单标记GWAS、多标记GWAS和多性状GWAS分析。
1. 软件下载及安装
1.1 下载地址: https://github.com/genetics-statistics/GEMMA/releases
选择最新的稳定版0.98.1,下载下图第一个文件:gemma-0.98.1-linux-static
。该文件是汇编好的,下载后解压就可以使用
1.2 安装代码如下:
gunzip gemma-0.98.1-linux-static.gz #解压
chmod +x gemma-0.98.1-linux-static #添加执行权限
./gemma-0.98.1-linux-static #运行测试
捕获1.PNG
2. plink 二进制文件格式介绍
2.1 plink二进制文件分为三部分:
- plink.bed 包含基因分型的二进制文件
- plink.fam 包含家庭号、个体号、母亲号、母亲号、性别、表型。即plink.ped文件前6列
- plink.bim 标记信息文件,类似于plink.map文件。
2.2 数据准备
我们使用GEMMA软件提供的测试数据进行联系。具体数据可以在GEMMA下载页面下载Source code(tar gz)
文件并解压获得。
2.3 运行测试数据
运行时需要先生成kinship居中,在使用混合线性模型进行分析。代码如下:
#计算kinship矩阵
./gemma-0.98.1-linux-static -bfile 2000 -gk 2 -o kin
#-bfile plink二进制文件前缀; -gk 2 生成kinship矩阵时进行scale; -o 输出文件前缀
#将kinship矩阵移动至当前目录
mv ./output/kin.sXX.txt .
#进行GWAS分析
./gemma-0.98.1-linux-static -bfile 2000 -k kin.sXX.txt -lmm 1 -o GE_GWAS
#-k 指定kinship矩阵; -lmm 1 使用wald检验计算显著性。
2.4 输出结果解读
输出结果见文件 ./output/GE_GWAS.association.txt
.
该文件包含12列结果。具体含义如下:
-
chr
SNP所在染色体号 -
rs
SNP名称 -
ps
SNP物理位置 -
n_miss
SNP缺失个体数 -
allele1
次等位基因 -
allele0
主等位基因 -
af
SNP频率 -
beta
SNP效应值 -
se
beta估计标准误 -
l_remle
计算该SNP效应时对应的lamda的remle估计值。 -
p_wald
wald检验P值
其中,我们最关心的三个结果是chr
,ps
,p_wald
,我们可以借助这三个结果画曼哈顿图和QQ图。l_remle
比较难理解,需要懂模型才知道它的含义,但对分析来说,不是很重要。
有这个问题的同学可以留言。
GEMMA软件源码和说明文档托管与github中:https://github.com/genetics-statistics/GEMMA