时间序列数据分析的部分综述
翻译整理自
Analyzing time series gene expression data
Significance analysis of time course microarray experiments
时间系列研究的是gene表达的动态行为。鉴定静态实验的差异表达gene已经做了很多的工作。但是因为gene表达是动态的调控过程,所以鉴定并且找出gene表达随时间的表达变化也非常重要。这篇文章,我们呈现一个总体的统计学方法,来鉴定随时间变化的差异表达gene。
对于数据系列的微阵列数据,有几种聚类方法应用的很好,包括有等级聚类,基于主成份分析的聚类,基于贝叶斯模型的聚类,Kmeans聚类曲线。但是,这些聚类方法中没有一种可以直接应用于鉴定那些随时间变化的有统计学意义的gene。Kmeans聚类方法已经修正来比较两组之间时间系列的表达,但这个模型只适合一次分析几百个gene,因为计算问题。作者开发的这个方法可以用于多个时间点,不受内存的限制。一次可以检测40,000个gene。
作者文章用了两个实验。一个是处理组和非处理组,处理组用内毒素处理,目的是鉴定那些用内毒素处理过的不同时间点的gene表达变化,第二个研究,作者是检查肾脏皮质的差异表达gene,时间系列则是age,也就是看不同年龄,27~9岁。
样本信息
内毒素使用前和后的2,4,6,9小时。
提取RNA后用的U133A和B芯片。共44924个探针集。DCHIP进行标准化,表达水平只用perfect-match-only model。然后进行log2转换。
结果,在时间系列这个实验中,共显著差异探针集4163个(<0.1%)。其中有3892个有匹配的gene IDs,去重复后有2914个gene。
时间系列的综述
作者把计算挑战分为四个分析水平
实验设计,数据分析,模式识别,网络
对每一个水平而言,作者分别讨论计算和生物学问题。并且剔除一些方法试图处理这些问题。这些层次的很多问题被讨论。这个综述期望能服务于,一,对实验生物学家提供一些分析数据的参考点,以解决实际问题。二,对那些对时间系列问题感兴趣的计算科学家提供一个开始点。
这篇论文中,我们区分静态的和时间系列实验。在静态表达实验中,不同样本之间的gene表达情况做一简要说明,但是在时间系列试验中,时间过程被测量。两种类型数据之间,另外一个重要的区别是,从一个样本群体中来的静态数据(比如卵巢癌病人)被认为是独立相同分布independent identically distributed,而时间系列展示了一系列点之间强烈的自相关性。之前处理时间系列数据的方法是静态的方法,最近专门针对时间系列数据处理的算法被提出来。正像这篇文章所述及的,这些算法可以解决对时间系列表达数据来说特殊的问题也允许我们充分利用这些数据,通过利用他的unique特征。基因表达是一个时间过程,不同的情况下为了实现不同的功能不同的蛋白质需要合成。甚至在稳定的状态下,因为蛋白组的讲解,mRNA不断的被转录,新蛋白不断的合成。这个过程是高度被调控的。细胞调控gene表达的重要方式之一是使用一个feedback 环。其中有一些蛋白是转录因子。这些蛋白调控其他gene的表达(也有可能调控他们自己的表达),通过启动或抑制转录。当细胞面对新的状况时,比如饥饿,感染和压力,他们就会激活一些新的表达模式。许多cases下,这个表达program通过激活一些TFs开始,这又反过来激活其他的gene,而这些gene又是对新情况的反应。他能够过对适应一个新环境而表达产生的gene大概分析,我们可以知道,这些gene中的一部分只在一些新condition下特异表达。然而,为了确定在这些状况下表达的完整的gene set,进而确定这些gene间的相互关系,非常有必要来测量表达实验的时间系列。这就允许我们来确定的不是是新情况下的稳定状态,还有为了到达这种新的state被激活的那些通路和网络。
第一部分
时间系列表达实验的example
这一部分主要展示需要时间系列来回答的生物学问题的广泛范畴。这些问题中的很多包括计算方面,上面我们已经讨论过了。
生物系统****biological systems
研究的最广泛的系统是细胞周期。这个system在发育,癌症和其他很多生物学过程中起到重要作用。在过去四十年间研究的非常多。
基因相互作用和基因敲除
WT野生型时间系列实验,对决定一个系统中发挥作用的gene set非常有用,并且可以确定他们的作用顺序?为了研究单个gene的功能,我们需要进行敲除实验。在敲除实验中,这个gene从基因组中被删除,删除后的strains使用表达实验被研究。这样的实验允许我们来确定这个敲除gene的下游效应,这可以用来鉴定靶基因并构建基因相互作用网络。人们做了很多静止状态下的gene敲除实验。近来,时间系列的gene敲除实验也开始进行。这包括细胞周期double knockouts和压力情况下的敲除。
发育
理解发育是理解很多gene疾病的关键。在分子水平研究时间系列表达实验可以鉴定那些在发育的不同阶段起关键role的gene。例如,对果蝇发育80个时间点的研究,鉴定出了很多gene,这些gene控制果蝇发育过程的特殊阶段。相似的实验也用于研究其他器官,包括银杆线虫。近来,表达实验也用来研究人类发育。为了鉴定参与参与细胞分化形成不同的组织类型的gene,人类胚胎肝细胞也已经开始进行profiled。
感染和其他疾病
如果能鉴定出对某一个感染疾病反应的gene,那么这对开发针对这种基本的药物是非常重要的。有人研究了被四种不同的病原菌感染的人细胞的时间系列。另外的例子包括huntington疾病和癌症。正像我们上面说的,表达实验可以用了回答很多生物学问题,然后,就像我们下面即将要讨论的一样,阐明这些问题需要我们解决很多计算问题。
分析时间系列表达data的计算挑战
通常,在分析基因表达数据尤其时间系列的时候,需要陈述的生物学和计算问题可以用四个分析水平说明:实验设计,数据处理,模式识别和网络。每一个水平都阐释一个特定的生物学和计算问题,并且也服务于高级分析的预处理过程。这篇综述的剩下部分主要阐释这四个水平。对每一个水平来说,我们首先讨论设计这个水平的计算挑战和生物学问题,然后总结试图解决这些问题的方法。对一些水平来说,我们会讨论更多细节。
第二部分:挑战
样本量不足,结果不能正确的代表实验期间gene的活性,关键时间可能被忽略。另一方面,样过多就会多花钱也费时间。因为很多实验都是受经费限制的,样本过多会减少实验的可持续性,这可能会导致重要gene的丢失,而这些gene可能在后期参与了重要的生理过程。这个问题也有生物学后果,因为样本rates依赖于mRNA的转录和降解率。另外,样本量不足可以导致时间成蔟效应。这些效应 或许会干扰我们的推断随机关系的能力,因为那些有状况依赖性的gene或许看起来是依赖的,假如sampling rate太coarse。