芯片数据分析介绍（转载）

2021-11-22 本文已影响0人看远方的星

原文链接：https://www.plob.org/article/1803.html

芯片分析概述

随着基因芯片技术的普及，基因表达数据大量产生，如何充分利用这些数据并从中提取有用的生物学知识，是生物信息学所面临的一个迫切问题。简要来说，生物芯片数据分析流程大体可分成以下几个阶段。

扫描与图像识别

一张芯片完成杂交实验，经扫描仪读取后生成图形文件，经过划格(Griding)、确定杂交点范围(Spot Identifying)、过滤背景噪音(Noise Filtering)等图像识别过程，才能最终得到基因表达的荧光信号强度值，并以列表形式输出。

数据预处理

由于杂交荧光标记效率或检出率不平衡、位置效应等多种因素，原始提取信号需要进行均衡和修正处理后，才能进一步分析。这一步通常需要先进行背景校正(Background Correction)，去除不均匀背景光强影响，然后再进行归一化(Normalization)处理。

一般来说，对于单色DNA芯片而言，这一步相对容易；而双色DNA芯片则需要考虑不同染料(Cy3、Cy5)对于mRNA染色效率的差异。

数据分析

在前一步基础上，需要根据基因表达状况与事先设定的条件，对基因进行分类处理。具体来说，又可分为寻找差异表达基因和寻找共表达基因两种。

所谓差异表达基因(Differen-tially Expressed Genes)，是指在预先设定的不同实验条件下，表达量出现显著差异的基因。而共表达基因(Co-expressed Genes)则是指在不同实验条件下，表达模式或表达量相似的基因。

实践中，在没有先验知识的情况下，一般是通过聚类来寻找这些基因。如果事先已经有了一组明确的训练集，也可以通过分类来寻找与这组基因具有类似表达模式的其他基因。

所谓聚类，也称无监督分类(Un-supervised Classification)，是指在未设定先验类别的情况下，根据表达模式或表达值相似程度，将基因划分为若干组。而分类则是指在给定已经先验标明类别(如肿瘤、健康)训练集前提下，根据表达模式或表达值相似程度，将被检基因或样本归入预先设定的类别中。

为确保实验结果可靠性，实际生物学研究中，经常采用RT-PCR之类低通量表达分析手段，对选择出来的基因进行进一步验证。

值得指出的是，以上给出的只是一个大体流程。实际数据分析过程中，经常需要根据前一步分析结果和实际生物学问题来制定下一阶段分析策略。同时，考虑到基因表达动态性和时间相关性，即使对于同一种细胞类型，不同条件下转录表达情况也会有差异。因此，分析基因表达数据时，必须同时参考具体实验条件的描述，通常称这些描述实验条件的数据为元数据(Meta-data)。典型的元数据包括实验方案、实验材料、图像处理方法和数据归一化方法等信息。

芯片分析软件包简介

芯片分析过程繁复，且涉及到复杂的统计计算，需要综合运用多种数学与计算机工具。为方便生物学家研究，相关研究人员已开发了许多专用芯片分析软件。

【1】Bioconductor

Bioconductor是基于统计学软件包R的芯片分析软件包，其主要目的是为生物信息学研究人员提供一组表达数据分析工具。Bioconductor的开发起始于2001年，主要由美国Fred Hutchinson肿瘤研究中心、哈佛医学院以及哈佛公共健康研究院开发。

Bioconductor可支持几乎所有主流芯片数据格式，包括Affymetrix公司的商业化单色寡核苷酸芯片，以及用户自己定制的双色cDNA芯片。Bioconductor通过若干子软件包提供多种主流芯片分析方法，可用于数据预处理、差异表达基因识别以及聚类等常用数据分析。除用于芯片数据分析以外，Bioconductor还可用于SAGE、CGHArray以及SNPArray等其他表达数据分析。

Bioconductor的源代码完全开放，用户可以方便查看以及修改现有算法及其具体实现模块。因此，Bioconductor也广泛用作其他芯片分析工具的后台支持。

【2】dChip

dChip(DNA-Chip Analyzer)由哈佛大学生物统计系Cheng Li、Wing Wong等联合开发，是综合性芯片分析软件。dChip运行在Windows平台上，包括以下功能：

针对Affymetrix芯片、基于MBEI(Model-based expression indexes)的数据预处理及归一化；
基于样本比较差异基因识别；

3)主成分分析(Principal Component Analysis，PCA)；

方差分析(Analysis of Variable，ANOVA)；
时间序列(Time Series)分析；
层次聚类(Hierarchical Clustering)；
SNP array的LOH(Loss-of-heterzygosity)、拷贝数(Copy Number)分析；
连锁分析(Linkage Analysis)。

dChip基于Windows的图形用户界面开发，与Bioconductor的命令行界面相比，更便于初学者使用，但它的定制性较弱，不利于进行二次开发。

最初dChip主要用于Affymetrix的单色寡核苷酸芯片分析，但在最新的版本中(dChip 2006)也开始对双色cDNA芯片的数据分析提供支持。

【3】TM4

TM4是一组由TIGR公司开发的生物芯片分析工具包，可同时支持双色和单色 cDNA芯片，以及Affymetrix的单色寡核苷酸芯片分析。TM4提供了对于芯片实验流程的全面支持，大大方便了用户使用。

TM4主要由四个模块和一个后台数据库组成：

芯片数据管理工具Microarray Data Manager (MADAM)，负责为用户提供统一的操作界面，管理实验流程及产生的数据。为便于数据交换，MADAM将所有数据按照MIAME格式统一存放在后台MySQL数据库中。
图像分析软件Spotfinder负责从扫描得到的图像中提取基因表达荧光信号强度值。Spotfinder支持多种扫描仪生成的图像文件，同时提供半自动化划格(Griding)及杂交点识别(Spot Identifying)功能。
MIDAS(Microarray Data Analysis System)是数据预处理模块，支持LOWESS、Iterative Linear Regression、Slice Analysis等多种常用归一化算法。同时，MIDAS还支持通过标准的t-检验、MAANOVA、SAM等方法寻找差异表达基因。
MeV(MultiExperiment Viewer)用来进行聚类和分类，以及结果的可视化显示。目前支持包括层次聚类(Hierarchical clustering)、K-mean聚类、自组织图聚类(Self-Organizing Map，SOM)等多种聚类算法，以及支持向量机(Support Vector Machine，SVM)等多种分类算法。

【4】BASE

BASE是一个基于Web的芯片数据管理与分析平台。与上述主要基于单机的分析软件包不同，BASE的设计目标是提供一个可以供多人协同工作的平台。因此，BASE在数据管理方面投入了很多精力，将芯片数据管理与芯片数据注释融为一体，用户可以通过浏览器方便地查询实验进度、观察实验结果，并及时和其他相关人员分享信息。

同时，BASE也提供了一组简单的工具，供研究人员对数据进行一些快速分析。BASE中包含了一个基于Java Applet的三维可视化工具，可供用户从多个角度查看数据分析结果。

【5】Matlab Bioinformatics Toolbox

Matlab是经典的科学计算软件，由美国MathWorks公司开发。它集数值运算、符号运算及图形处理于一体，广泛应用于工程和科学计算。类似于R，Matlab的核心部分注重提供一个快速、高效且稳定的平台支持，通过针对不同领域与应用编写特定工具(Toolbox)，满足不同客户的专门需求。最新版Matlab 7附带Bioinformatics Toolbox，是Matlab第一个专门针对生物信息应用而开发的工具箱。该工具箱为芯片数据处理提供了归一化和聚类分析，包括层次聚类和K-mean聚类。此外，通过与统计工具箱配合使用，用户还可通过经典的t-检验及ANOVA等方法寻找差异表达基因。与其他专业软件相比(见表1)，目前该工具箱芯片数据分析功能还很有限，特别是很多2003年以来发展的新方法都没有包括。

除了Matlab Bioinformatics Toolbox以外，用于学术研究目的时，上述软件都可以免费获得。