基因表达分析
基因表达检测方法
基因表达需要直接或者间接测量某个生物个体内全部基因的转录产物(指狭义的转录组即mRNA)在细胞中的丰度,常用的检测方法有:实时荧光定量PCR(qRT-PCR)、基因芯片(Microarray)、表达序列标签(Expressed Sequence Tag,EST)、基因表达系列分析(Serial Analysis of Gene Expression,SAGE)和转录组测序(RNA-seq)。目前高通量基因表达测量方法主要是基因芯片和转录组测序。
基因表达数据分析
基因表达数据通常用矩阵形式表示,成为基因表达矩阵。基因表达矩阵的一行代表一个基因在不同条件(如不同药物处理)下或来源(如正常组织和癌组织)的表达。一个列代表某个条件下或者某个来源样品的素有基因的表达情况,每个格子代表特定的基因在特定的条件下或者特定来源的某个样品的表达水平。
基因表达数据分析就是通过对基因表达矩阵的分析,回答一些生物学问题。总体来说实验设计有两大类思路:一类是时间序列分析,主要思想是测定基因多个时间点的表达值,通过聚类和主成分分析等分析手段寻找共同调控基因,进而研究其深层机制;第二类就是基因表达差异的显著性分析。
这里具体介绍一下基因表达差异的显著性分析,简称表达差异分析,是当前基因分析中的重中之重,其目的是比较两个条件或来源下的基因表达差异,通过统计学方法,找出与条件相关的特异性基因,然后进一步分析这些特异性基因的生物学意义。表达差异分析的第一步是要识别在两个条件下有显著性表达差异的基因,简称差异表达基因(DE)。显著性表达是指一个基因在两个条件中表达水平的检测值的差异,具有统计学意义,这个统计学意义往往是基于一定的统计假设的。常用的算法有三类:1)倍数分析(无任何统计假设),计算每一个基因在两个条件下的比值,若大于给定阈值,则为差异表达基因;2)统计模型:计算表达差异的置信度(P值),选取一定P值(如0.01)以下的坐位差异表达基因;3)机器学习方法进行特征选择,包括贝叶斯模型、支持向量机或者随机森林等。得到差异表达基因后,通常会进行基因本体论和通路分析(这通常称为下游分析)。
下游分析——基因本体论分析
基因本体论分析(Gene Onotology,GO)分析包括GO注释和GO富集分析。
GO是一个术语(term)数据库,用来对基因和蛋白质功能进行限定和描述。term之间有三种关系:“is_a”、“part_of”、“regulates”。
GO注释:就是将表示基因或其产物的ID映射到一组GO的ID上,用这组GO term来描述这个基因。
GO富集分析:用统计学方法分析基因对应的GO term的分布情况,显著富集的GO term为研究人员研究分析一组基因(比如差异表达基因)的共同点、发现新现象有很大启发价值。
下有分析——通路分析
通路分析包括通路注释和通路富集分析,其基本思路与GO分析类似。
常用公共通路数据库有KEGG、BioCarta和GenMAPP,最为著名的是KEGG数据库中的代谢通路。KEGG代谢通路注释几乎成为了通路注释的代名词。