遗传学

MAGMA软件实现gene-based & gene-set-b

2021-08-29  本文已影响0人  生信阿拉丁

作者:Bio_gevin
审稿:童蒙
编辑:amethyst

随着全基因组关联分析使用样本数量的增加,人们也逐渐认识到很多感兴趣的性状在本质上是由微效多基因控制。单个SNP的关联分析难以捕获显著性的结果,这种以基因为单位、以功能通路为单位或者以其他具有生物学意义的SNP聚集的方式的关联分析应运而生,这也是对仅以SNP-based关联分析的一种很好的补充。

随着接触复杂疾病相关研究,经常会查询相关文献,而MAGMA(Multi-marker Analysis of GenoMic Annotation)在高分文献中高频出现。

MAGMA包括三个功能模块:
①注释步骤,将SNP map到基因中;
②基于基因关联分析,计算基于基因和性状的关联显著性,在这又可以分为两个部分,一种是基于raw data的gene-based关联分析,另一种是基于SNP pvalue的gene-based关联分析;
③基于基因集的关联分析。

GWAS summary statistics格式介绍

GWAS summary statistics格式在关联分析中经常使用,很多软件基于该种格式数据来实现功能,也会有一些软件设置了使用该种格式数据的接口,因此有必要简单介绍一下各列的含义,如下图:

MAGMA软件使用

SNP注释

MAGMA软件第一步是SNP注释步骤,输入的文件是bim文件(plink格式文件)和基因的位置信息。
magma --annotate --snp-loc [SNPLOC_FILE] --gene-loc [GENELOC_FILE] --out [OUTPUT_PREFIX]
①SNP位置信息文件应该包含三列,即前三列为SNP ID, chromosome, 和base pair position,如果是plink产出的bim文件就不需要修改了,plink的bim文件格式如下:(染色体,SNP ID,unknown,BP,ref和alt)


②基因的位置信息文件应该包含至少四列,即gene ID, chromosome, start site和stop site,第五列可以是正负链信息(仅在用不对称的基因窗口注释时才会用到),具体格式如下:

③产出结果:gene ID,基因位置,SNP ID

基于基因的分析

基于基因的分析可以分为两个部分:基于原始数据的基因分析和基于SNP p-value数据的基因分析。

基于原始数据的基因分析,输入的是原始文件bed/.bim/.fam(可直接输入名字,不用加后缀);上一步输出的结果.annot文件。
magma --bfile [DATA] --gene-annot [ANNOT_PREFIX].genes.annot --out [GENE_PREFIX]

基于SNP p-value数据的基因分析,--pvalue参数需要指定SNP pvalue文件。

magma --bfile [DATA] --gene-annot [ANNOT].genes.annot --pval [PVAL_FILE] N=[N] 
magma --bfile [DATA] --gene-annot [ANNOT].genes.annot --pval [PVAL_FILE] ncol=[N_COL]

基于原始数据的基因分析
其中DATA必须为plink格式文件,[DATA].bed, [DATA].bim和[DATA].fam files;默认是使用PCA回归基因分析模型。
magma --bfile /GWAS/split_chr/Middle/chr1 --gene-annot gevin.genes.annot --out gevin_gene_based_rawdata
基于SNP p-value数据的基因分析
magma --bfile /GWAS/split_chr/Middle/chr1 --gene-annot gevin.genes.annot --pval SNPassocFisher.result use=2,8 N=170 --out gevin_gene_based
参数分别为:

注意:
a:MAGMA提供同义SNP(需要依据dbSNP,一些不同的rs IDs已经合并成为一个ID)处理
b:指定gene-based分析的模型,主要有三个:

  • the principal components regression (linreg) model
  • the SNP-wise Mean (snp-wise=mean) model
  • the SNP-wise Top 1 (snp-wise=top) model
    对于Gene analysis on raw genotype data分析应用的模型默认是linreg,而对于使用--pval参数的分析,默认使用的模型是snp-wise=mean。

产出结果的解读

基于基因集的分析

基因集分析可以更加直观的展示出基因的哪些功能和生物学特性是与特定表型相关的,而基因具有多种特性,这些特性在不同基因中通常是相关的,容易在基因集关联分析引入混淆,MAGMA在基因集分析中有了很大功能提升。

magma --gene-results [GENE_RESULTS].genes.raw --set-annot [SET_FILE] --out [OUTPUT_PREFIX] 
MAGMA/magma --gene-results gevin_gene_based.genes.raw --set-annot synapse.sets col=1,2 --out gevin_geneset_based

其中:

总结

MAGMA软件输入数据既可以是原始数据也可以是关联分析结果数据,既可以进行gene-based分析挖掘特定表型相关的基因,也可以进行生物通路水平的分析,在充分使用测序数据和表型的同时也丰富了我们的分析结果。

参考文献

https://ctg.cncr.nl/software/magma

上一篇 下一篇

猜你喜欢

热点阅读