Bioinformatics基因注释/富集分析与功能分类

GSEA----软件操作实战

2019-02-12  本文已影响38人  liu_ll

大家新年好呀~之前的一篇笔记我们关注了一下GSEA的原理:GSEA入门---------原理,今天我们将跟随文献上的例子,进行实战练习。
一:数据准备
本次测试的数据来自于:https://enrichmentmap.readthedocs.io/en/docs-2.2/Tutorial_GSEA.html

图一:数据图解

本次的数据一共有3个,分别是以.cls,.gct,.gmt结尾的文件,接下来我们一个个看一下这几个文件里面到底是什么格式和内容。
1:.cls文件
第一行:18,6,1(一共18个样本,一共分为6组)
第二行:6组样本的分组名字
第三行:分组及重复

图1.1.cls文件信息
2:.gmt文件
GMT文件的全称是Gene Matrix Transposed file format,中文是“基因矩阵转换文件格式”,缩写为GMT。GMT文件是由制表符分割的文件,它用于描述基因集,可以理解为高通量测序的注释文件。每行代表一个基因集:
图1.2.gmt文件信息
3:.gct文件
GCT格式是由分割符分开的一个数据文件,它记录的是基因表达的数据集,它的格式如下所示:
第一行是样本信息,第一列是基因名字。
图1.3.gct文件信息

简单介绍完了基本的文件信息。

Q:我们来思考一个问题,为什么要这三个文件就可以分析了呢?
A:从上面一个学习笔记中,我们知道了GSEA的目标是确定一个基因集S的成员是否倾向于出现在列表L的顶部(或底部),在这种情况下,该基因集与表型分类区分相关。
  我们知道了如果需要进分析,必须要有gene set(.gmt/.grp等), gene list(表达的芯片数据,可以是Chip的结果),除此之外还需要一个分组信息的统计(.cls)。

-----------------------------------------------我是实战分割线----------------------------------------

1:下载测试数据并解压:测试数据下载
图1:测试数据
2:下载软件,需要注册or登录,如果没有注册的话,可以利用邮箱进行注册
2.1:软件下载界面

根据电脑的内存大小选择合适的内存,下载并且安装


2.2点击下载

下载解压安装后的界面如下,这时候可以点击Load Data


2.3GSEA打开界面
3:选择load 数据包里的三个文件
加完完毕后会显示加载的数据,这时候可以选择Run GSEA 图3:loading完毕点击Run
4:设置参数

第一个箭头:出来一个默认MCF的表达数据库
第二个箭头:点击...可以看到不同的选择(如图4.2)
第三个箭头:安装默认的设置1000次就好,这里是置换检验的次数。
第四个箭头:设置标签label。点击...,选择ES_NT.cls
第五个箭头:选择False(此处填false,这个参数用于说明是否要把探针的编号转换为基因ID(gene symbols),因为.gct已经转换了,所以不用)
第六个箭头:置换检验的类型是:gene_Set
接下来设置一下输出设置,点击RUN,可以看到正在运行(图4.3)

图4:设置参数的位置 图4.2:设置基因set 数据库 图4.3:输出设置
5:设置重复分析(因为本例中是有12,24,48个小时的对照,需要分析3次)

只需要修改箭头的参数即可,点击Run


图5:24小时repeat
图6:48小时repeat

接下来就可以等待分析结果出炉了。
-------------------------------------我是结果分割线------------------------------------------------

因为置换检验的次数太多,在实际分析的时候会报错显示内存不够,所以我把1000变成了50,这样可以不报错输出结果。

图7:运行成功结果显示
1:我们可以在生成的文件夹下面看到生成了很多的结果,首先先看看index.html的网页结果,然后进行结果解读。
图8:结果生成图
图9:index.html的结果显示

part1:表型富集:REST(15个样品)
•2436 / 4756个基因组在表型REST中上调
•173组基因在FDR < 25%时显著
•258个基因在名义pvalue < 1%时显著富集
•400个基因在名义pvalue < 5%时显著富集
part2: 表型富集:ES12(3个样品)
•ES12表型中2320 / 4756个基因组上调
•FDR < 25%时,351个基因集显著富集
•370个基因集在名义pvalue < 1%时显著富集
•479个基因集在名义pvalue < 5%时显著富集
这两个相当于实验组和对照组。在不同组别内样品分析的jieguo

2:Snapshot of enrichment results中单击Snapshot可以看富集的结果,默认情况下,只显示前20个,如下所示:
图10:富集结果展示
3:单击enrichment results in html就可以查看所有的富集分析结果,如下所示:
图11:部分富集结果展示

简单解释一下这个表格:
GS DETAILS可以查看具体的某个功能基因集S的富集分析结果;
SIZE表示基因集里的基因数;
ES表示富集分数的ES值;
NES表示校正后的ES值;
NOM p=val是名义P值;
FDR q-val用FDR法校正后的P值,即Qvalue;
FWER p-val用FWER法(Bonferonni校正)校正后的P值
RANK AT AMX表示ES值达到最大进度,对应的通路基因的排名;
LEADING EDGE,显示了用于定义Leading edge subset的一些参数,分别有Tags,List,Signal。
Tags指的是,在ES最大值这个点之前,功能基因集S中的成员s在目标基因列表中的概率(此时ES为正值),或者说是在ES最大值这个点之后,功能基因集S中的成员s在目标基因列表中的概率(此时ES为负值)。这个指标看的是,对ES有贡献的基因数目占功能基因集S中总数目的百分比。
List指的是,在ES最大值这个点之前,在排序的目标基因列表L中的基因数目(此时ES值为正)占L总基因数目的百分比,或者说是在ES最大值这个点之后,在排序的目标基因列表L中的基因数目(此时ES值为正)占L总基因数目的百分比,它反映的是,目标基因列表L中多少个基因参与了ES的计算。

4:利用cyctoscape看结果

![image.png](https://uplo
4:ad-images.jianshu.io/upload_images/14720037-ab16b7edc3c04784.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

图注:Node (inner circle) size corresponds to the number of genes in dataset 1 within the geneset
Colour of the node (inner circle) corresponds to the significance of the geneset for dataset 1.
Edge size corresponds to the number of genes that overlap between the two connected genesets. Green edges correspond to both datasets when it is the only colour edge. When there are two different edge colours, green corresponds to dataset 1 and blue corresponds to dataset 2.

5:点击节点可以查看热图信息
热图信息

(PS:软件原因,4和5没有本地结果,还需要调试软件,先参考了教程的结果)

Ref:
1:https://mp.weixin.qq.com/s/Z9EOabIyHlT630c_yAC0vg
2:https://enrichmentmap.readthedocs.io/en/docs-2.2/Tutorial_GSEA.html
3:http://software.broadinstitute.org/gsea/downloads.jsp

上一篇 下一篇

猜你喜欢

热点阅读