基因矩阵转置文件格式(* .gmt)
2022-02-20 本文已影响0人
生信交流平台
gmt文件可能对于很多人来说比较陌生,但是对于使用GSEA(https://www.gsea-msigdb.org/)做过基因富集分析的人应该并不陌生。
gmt(Gene Matrix Transposed,基因矩阵转置)文件,里面保存的是一些基因列表的信息。每一行代表一个基因列表,基因之间以制表符隔开。下面是一个gmt文件的示例。第一列是基因列表的名字,第二列一般是描述信息,说明这套基因列表从哪里收集的,也可以为空或者用NA表示。从第三列开始,每一列是一个基因的名字。每一行的长度可以不一致,也就是说每一个基因列表中包含的基因数可以不一样。
![](https://img.haomeiwen.com/i24747866/183455dd33083a71.jpg)
在GSEA的官网上(https://www.gsea-msigdb.org/gsea/downloads.jsp)
将所有的基因集划分为以下8大类
1. H: hallmark gene sets
该类别包含了由多个已知的基因集构成的超基因集,每个H
类别的基因集都对应多个基础的其他类别的基因集。
2. C1: positional gene sets
该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。
3. C2:curated gene sets
该类别包含了已知数据库,文献和专家支持的基因集信息,包含下面5个二级分类
![](https://img.haomeiwen.com/i24747866/72e529fcf53d60bb.jpg)
4. C3 : motif gene sets
该类别包含了miRNA靶基因和转录因子结合区域等基因集合
![](https://img.haomeiwen.com/i24747866/5c21a6717c2e89d5.jpg)
5. C4 : computational gene sets
该类别包含计算机软件预测出来的基因集合,主要是和癌症相关的基因
![](https://img.haomeiwen.com/i24747866/0e1818f6df879fa7.jpg)
6. C5 : GO gene sets
该类别包含了Gene Ontology对应的基因集合,分为以下3大类别
![](https://img.haomeiwen.com/i24747866/10b2c390825fd470.jpg)
7. C6 : oncogenic signatures
该类别包含已知条件处理后基因表达量发生变化的基因,
8. C7 : immunologic signatures
该类别包含了免疫系统功能相关的基因集合。
下期我们将来谈谈如何用R读取gmt文件,为后续富集分析做准备。