MAGMA

2019-04-23 本文已影响3人又是一只小菜鸟

前言部分转自生信草堂本推文相关的数据和代码储存于百度网盘：链接：https://eyun.baidu.com/s/3c1GJdNa 密码：hWAG（或发送后台“练习资料”，即可得链接和密码）
同时后面还有自己的实践，大家一起学习吧。

这里我们和大家分享一个最近Nature, Nature Genetics, Nature Neuroscience等大文章中常用的分析软件MAGMA。这个软件的英文介绍是MAGMA is a tool for gene analysis and generalized gene-set analysis of GWAS data. It can be used to analyses both raw genotype data as well as summary SNP p-values from a previous GWAS or meta-analysis. 即此软件既可以分析基因水平又可以分析生物通路水平，既可以分析GWAS的原始数据又可以分析GWAS summary数据。是一个功能十分强大，而操作又很方便的软件。我们可以从官网上直接免费下载：https://ctg.cncr.nl/software/magma。此软件可以基于Linux系统，也可以基于Windows系统。

基因和基因集分析是同时分析多个遗传标记以确定其联合效应的统计方法。这种聚合的优点是大大减少了需要执行的测试数量，并使检测由多个较弱的关联组成的效果成为可能，否则这些关联就会被忽略。
（1）在基因分析中，将遗传标记数据聚合到整个基因水平，检测基因中所有标记与表型的联合关系，量化每个基因与表型的关联程度。此外，还估计了基因之间的相关性。这些相关性反映了基因间的LD，在基因集分析中，为了补偿基因间的依赖关系，需要这些相关性。
（2）在基因集分析中，个体基因被聚合成具有某些生物学、功能或其他特征的基因群。利用上一步中得到的基因p值和基因相关矩阵进行实际的基因集分析。

基于GWAS summary数据也可以做，这些SNP-wise模型首先分析一个基因中的单个SNP，并将得到的SNP p值组合成一个基因测试统计量，因此，即使只有SNP p值可用，也可以使用这些模型。

这个MAGMA软件相关的文章发表在PLoS Computational Biology杂志上:de Leeuw C, Mooij J, Heskes T, Posthuma D: MAGMA: Generalized gene-set analysis of GWAS data. PLoS Comput Biol 11(4): e1004219. doi:10.1371/journal.pcbi.1004219.

下载软件，进入官网https://ctg.cncr.nl/software/magma到达下载页面，如图：

第一条linux软件如果magma启动不了，就用static linking

一般流程

分4步走（注释，基于原始数据的分析，基于SNP p值的分析，基于基因集的分析），自己简单画了个流程图以便理解，如下：

image.png

1.注释

magma --annotate --snp-loc [SNPLOC_FILE] --gene-loc [GENELOC_FILE] --out [ANNOT_PREFIX]

中括号里的内容都要替换。
[SNPLOC_FILE]snp位置信息是自己提供的原始数据，bim文件。
[GENELOC_FILE]gene位置信息可从公共数据库下载，官网也给出了链接,如图。

[ANNOT_PREFIX]输出文件名，自己定义。
注：以上代码改完后，新手别忘了去掉中括号哦。如果magma启动不了，magma前面粘贴脚本的完整路径。
生成如下文件：

2.基于原始数据的基因分析

magma --bfile [DATA] --gene-annot [ANNOT_PREFIX].genes.annot --out [GENE_PREFIX]

[DATA]为第一步中用到原始文件bed/.bim/.fam，可直接输入名字，不用加后缀。
[ANNOT_PREFIX]上一步输出的结果.annot文件
[GENE_PREFIX]输出文件名，自己定义。
注：如果只进行基因分析而不进行基因集的分析，加命令--genes-only。如果原始文件中没有表型，要加表型命令--pheno file=文件名。
生成如下文件

.out文件长这样

列名解释如下：
GENE第一步注释完之后的基因ID
CHR基因位于的染色体
START/STOP染色体上基因的注释边界
NSNPS没有根据先前的SNP QC排除的注释到该基因的SNP数量
NPARAM模型中使用的相关参数的个数
N样本量
ZSTAT基因的z值
P基因的p值
RSQ/RSQ_ADJ模型的R2和调整后的R2值（调整后的R2值的上限是0）

3.基于SNP p-value的基因分析

magma --bfile [REFDATA] --pval [PVAL_FILE] N=[N] --gene-annot [ANNOT_PREFIX].genes.annot --out [GENE_PREFIX]

[REFDATA]如果没有原始文件，可以用参考文件，如果有就用原始
[PVAL_FILE]带有p值的GWAS文件
[N]GWAS数据样本量
[ANNOT_PREFIX]第一步中的注释文件
[GENE_PREFIX]输出文件名，自己定义
生成如下文件：

.out文件章这样

image.png

4.基于基因集的分析

magma --gene-results [GENE_PREFIX].genes.raw --set-annot [SET_FILE] --out [GS_PREFIX]

[GENE_PREFIX]第二步生成的文件
[SET_FILE]网上下载基因集数据库
[GS_PREFIX]输出文件名，自己定义

输入文件如连续性基因文件，用如下文件：

magma --gene-results [GENE_PREFIX].genes.raw --gene-covar [COVAR_FILE] --out [GC_PREFIX]

[GENE_PREFIX]
[COVAR_FILE]
[GC_PREFIX]

先就到这吧，大家可以随时交流！