[转载|生信基础]标准化③拷贝数数据标准化问题
1.标准化①基因表达谱数据标准化问题(RMA算法、MAS5.0算法、dChip算法、LVS算法)
2.标准化②甲基化数据标准化问题(Quantile算法、Lowess算法)
以下内容摘录自:
王栋. 癌相关高通量组学数据的标准化[D]
1.1 引言
目前,在全基因组范围内检测拷贝数变异的芯片技术已经在不同癌症中鉴定出了上百个拷贝数变异的基因,使我们对于癌症有了更深入的了解,同时也能够发现有用的生物学标记,从而预测癌症和药物靶点。然而,利用拷贝数芯片检测的高通量数据同样受诸如试剂与检测批次、不同操作者等多种因素的影响。为了排除技术因素的影响,应用于基因表达谱芯片的标准化算法通常也被直接用于拷贝数芯片分析,其中dChip标准化和Quantile标准化常被应用于拷贝数谱预处理中。这些标准化算法往往认为所有的样本的信号值应当近似服从一个分布而不顾组织间的生物学差异,即假设只有一小部分基因的拷贝数发生改变并且拷贝数扩增和缺失的基因数目大致相等。然而,我们最近的研究表明在癌表达谱中采用这些传统假设的标准化方法会失查很多癌相关的上调差异表达基因并且发现很多假的下调差异表达基因,因此需要采用不依赖于如前所述假设的数据标准化方法。在拷贝数数据中,研究人员通过观察癌样本的拷贝数信号值密度分布,发现大部分的基因倾向于拷贝数扩增而缺失却相对少见,因此有研究者建议很多现有的数据标准化方法不能直接应用。但是,目前仍然有很多研究者采用常规的方法对拷贝数检测芯片数据进行标准化处理。对此问题,研究者并未达成共识,一些研究人员在分析拷贝数变异数据时选择不进行标准化处理,而大部分研究者仍然采用常规的标准化方法对拷贝数数据进行预处理。因此,不同的标准化处理方法可能对筛选差异拷贝数基因等后续分析有重要的影响,有必要进行全面的评估。
目前,Quantitle[18],dChip [19] 等是最常用的对Affymetrix SNP芯片数据进行标准化处理的方法,都是把不同状态的探针值标准化为相同或相似的分布。例如,Quantile 标准化方法强制所有样本的探针表达值具有相同的分布[18];DChip算法流程中采用 Rank-invariant Set 方法标准化探针值,强制所有芯片的探针表达值都和参考芯片具有相同的分布[19]。上述标准化方法都基于如下假设:在疾病状态下只有少数基因是差异的,并且上调基因和下调基因的数目基本相同[20]。但是,由于癌的发生过程中细胞获得一系列的遗传改变,共同促进癌细胞的生长,这个潜在的前提假设很可能是不可靠的。一直以来被研究者所广泛采用的标准化的前提假设是没有被充分的论证的。
在本论文中,我们通过NCBI GEO数据库收集了八套癌症和正常样本配对的拷贝数数据。选择配对数据是因为可以避免一些如家系,个体和环境差异的复杂因素的影响。我们去除受处理时间的批次效应影响较大的数据后,通过比较正常和癌症样本的探针丰度来评价之前的标准化假设,结果显示探针丰度的中位数在四套数据集的癌症样本中都有所增加。在colorectal188数据中,我们发现采用原始数据筛选的差异拷贝数基因要比标准化后筛选的差异拷贝数基因与癌症有更高的相关性,提示在原始数据中挖掘癌相关生物学信号可能更为合理
1.2 拷贝数变异显著区域的选择
拷贝数变异显著区域的选择采用GISTIC(Genomic Identification of Significant Targets in Cancer)算法。GISTIC是一种统计学方法,全称为“癌症中显著靶点的基因识别”,设计用来分析癌症中的染色体变异。这种方法可以识别那些比随机情况下发生更多畸变的染色体区域。
GISTIC算法是通过两个步骤识别显著的染色体变异,首先,计算一个统计量(G得分),它包括了发生的频率和变异的幅度。第二步,它通过比较统计量和随机情况下的期望值来评估每个变异的统计显著性,即反映了事件的发生是由于随机波动造成的可能性。
扫描下方二维码关注生信客部落公众号:
生信客部落