R语言训练

富集分析Enrich me again!

2020-05-21  本文已影响0人  村长吃火锅

<meta charset="utf-8">

一般提到富集分析,首先想到的就是GO、KEGG这两把刷子,然后还需要知道两个重要概念:前景基因、背景基因

前景基因:你关注的要重点研究的基因集;
背景基因:所有的基因集
比如做转录组测序,一般都要设置处理组和对照组,前景基因是处理和对照的差异基因,背景基因就是两组样本的全部表达基因。

GO富集分析

Gene Ontology: 描述基因的层级关系【基于ORA算法】可以算得上是高通量数据分析的标配,转录组、甲基化、ChIP-seq、重测序等,都会用到对一个或多个集合的基因进行功能富集分析,来找这个基因集的功能偏好性

KEGG

Kyoto Encyclopedia of Genes and Genomes: 系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库【基于ORA算法】

image

<meta charset="utf-8">

这个图可以用pathview函数获得。先看看有没有关注的基因能注释到通路上,主要看颜色:红色表示上调的差异基因,绿色表示下调,白色的表示没有差异基因成功注释。
如果自己期望的一些基因没有成功注释,就代表没有吗?其实也不是,可以再试试KEGG官网数据库,使用BlastKOALA,上传蛋白序列-选择物种-填写邮箱
当然,KEGG还可以做条形图、气泡图等,但得到数据是最重要的,详细内容可以参考clusterProfiler

GSEA

Gene Set Enrichment Analysis 基因集富集分析,用于评估一个基因集的基因在表型相关度排序中的分布趋势,进而判断它们对表型的贡献

image

ES是Enrichment score 富集得分:表示基因集的基因在基因列表两端的富集程度。开始从左到右基因集的第一个基因开始,每次计算统计值并且逐次累加,有一个在基因列表中的基因,就增加计算的统计值,反之就减小。并且每次的增加和减小都被记录在上图红线的位置,它代表了基因和表型的相关性。结果得到的峰值计作富集得分ES,正值表示基因集的基因主要在基因列表顶部富集,负值表示在底部富集
绿色圆圈表示的Leading edge subset:表示对ES富集得分最大的基因集中的基因,ES为正值表示是峰左侧的基因,负值表示右侧的基因。这个图中的每一条线表示基因集中一个基因

上一篇 下一篇

猜你喜欢

热点阅读