基因注释/富集分析与功能分类

GSEA

2018-08-11  本文已影响226人  柠檬小暴

GSEA 有JAVA版,可以点点点就完成分析,但是数据格式有几点要注意

1.基因表达矩阵推荐用txt格式,比较容易从excel中拷贝,用excel直接保存成txt格式会出现问题。(其实就是还不习惯用linux下提取数据)
根据官方说明文档中给出的格式要求,第一列为基因名,第二列为description,此列对分析没有作用,但是必须要有,第三列开始为样本的表达量,如下图:


1.jpg

基因名必须要大写! 是因为gmt中的reference是人的基因名,所以在分析鼠的时候需要大写,后可以参考同源基因转换后再进行比对
基因名中不能有连字符- 和.x
其他的bug未知

2.自己写cls文件:

2.jpg
4为样本数,2为case数,1为固定格式;
剩下两行自己理解下
后面补充格式要求链接,暂时找不到了
http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats
这个是输入格式链接

3.制作gmt格式文件
参考jimmy 大神的教程,常见的KEGG,GO等get set 可以直接在线选择,不需要自己制作,而GSEA官方网站上未提供的gmt则可以自己制作
参考链接 http://www.bio-info-trainee.com/2144.html

image.png

4.软件参数设置:


3.jpg

gene set database是选reference的选项,可以选kegg,GO等,或者是自己制作的gmt
collapse选项是指是否要从探针转换成gene name,这里选no(如选yes,需提供chip的name)
Basic fields 可以选择在get set富集的最小基因数
Advanced fields 可以选择画出plots的个数
用gene_set进行分析。

http://software.broadinstitute.org/gsea/msigdb/collections.jsp

建议在以下几个gene sets集做GSEA 分析
H: hallmark gene sets
常见的50个gene sets

KEGG gene sets, 186 gene sets
KEGG pathways 共186个gene sets

C2
BioCarta gene sets, 217 gene sets

CP (Canonical pathways, 1329 gene sets)
CP (KEGG gene sets, 186 gene sets)


C5 BP GO biological process, 4436 gene sets

C6 oncogenic signatures, 189 gene sets


另外,附上jimmy大神的博客作为参考
http://www.bio-info-trainee.com/1282.html

上一篇下一篇

猜你喜欢

热点阅读