基因富集分析
2019-12-07 本文已影响0人
BioIT爱好者
基因功能富集分析中的基因功能指的是众多代表一定的基因功能特征和生物过程的基因功能集(gene set)。由这些基因功能集构成的常用基因功能数据库有 GO, 生物学通路, 包含生化反应、代谢或信号通路的 KEGG, Reactome, Biocarta 等, 整合数据库, 如 MsigDB 等。
基因功能富集分析的方法基于数据来源和算法大致可以分为 4 大类: ORA, FCS, PT, NT 的方法。ORA(过代表分析方法)是最早出现的一类基因功能富集方法, 它针对的数据是一组感兴趣的基因(基因列表), 其目的是在这组基因中发现有明显统计学上富集的基因功能集。其基本步骤包括先将给定的基因列表与待测功能集做交集, 找出其中共同的基因并进行计数(统计值), 最后利用统计检验的方式来评估观察的计数值是否显著高于随机, 即待测功能集在基因列表中是否显著富集。
目前有许多工具及数据库提供 ORA 的使用, 包括 DAVID, GOstat, GenMAPP 等。其中 DAVID 提供的基因功能集数据库最为全面, 不仅包含大量不同物种的基因功能注释信息, 也涵盖了主流的生物通路注释库如 GO 条目和 KEGG 通路, 而且还提供了基因名称转换功能, 及良好的结果展示界面。
ORA 方法中最为广泛使用的是 Fisher 精确检验, 即利用 2×2 的列联表, 根据超几何分布来检验基因列表中的基因在待测功能集中是否显著富集。
Fisher 精确检验是进行统计分析时经常碰到的一种分析方法,它基于超几何分布,作用于离散变量,用于检测两种分类方法的结果是否独立。