Cook R生物信息学与算法Bioconductor for R

【r<-生信|芯片分析】Bioconductor分析基因芯

2017-10-09  本文已影响192人  王诗翔

参考学习《R语言与Bioconductor——生物信息学应用》第五章,根据自己学习有删改,欢迎分享。本文中有些预备知识或一些方法的原理没有提及,请自行搜索理解或者购买该书学习。

Bioconductor最初就是设计来分析基因芯片数据的,因此芯片分析整体反映了Biocondutor的设计理念和编程思想。

快速入门

通过一个例子了解如何载入芯片数据,完成预处理,最后获得基因(探针组)表达矩阵。

# install CLL package
# library(BiocInstaller)
# biocLite("CLL")

# 载入CLL包,CLL包会自动调用affy包,该包含有一系列处理函数
library(CLL)
# read example dataset,(CLL包附带的示例数据集)
data("CLLbatch")
# pre-process using RMA method
CLLrma <- rma(CLLbatch)
# read expression value after pre-processing
e <- exprs(CLLrma)
# 查看部分数据
e[1:5, 1:5]

数据输出如下:

> e[1:5, 1:5]
          CLL10.CEL CLL11.CEL CLL12.CEL CLL13.CEL CLL14.CEL
100_g_at   7.495697  7.945159  7.861043  7.990252  7.889718
1000_at    7.251120  8.298723  8.473531  8.131041  8.051400
1001_at    4.457362  4.517529  4.357791  4.651236  4.473598
1002_f_at  3.984693  3.981675  4.065171  4.132480  4.065022
1003_s_at  6.437046  6.200826  6.412218  6.313572  6.105120

对象e是一个12625行、24列的基因表达矩阵。可以看到,我们仅用了不到10行代码就完成了整个芯片的预处理过程。

关于探针组

一张基因芯片包含上百万的探针,它们被整齐有序地印刷再芯片上。探针组(probe set)来自于一个基因,通常由20对或者11对探针组成。每一对探针都由匹配探针(PM)和错配探针组成,称为探针对。

探针序列地来源叫做参考序列,通常来自于公开的核酸数据库。不同的芯片类型,探针组在参考序列中的分布不同。

这里有一个概念误区需要注意:芯片数据中的基因表达矩阵往往是以探针组而不是以基因为单位的,每行都对应一个探针组的表达量。我们一般通过ID映射才对应到探针组代表的基因,它们的关系常常为多个探针组对应一个基因。实际应用中则不太注意区分。

关于芯片文件格式

芯片实验结果获取数据主要通过两个步骤,第一步由扫描设备对芯片进行扫描,得到荧光信号图像文件(DAT文件);第二步由系统自带的图形处理软件进行一系列图形处理与识别,从芯片图像中提取数据,得到CEL文件。

Affymetrix芯片原始数据最常用格式为CEL格式,也是芯片数据预处理和分析的出发点。

CEL文件只提供了每个探针的灰度信息,还需要基因芯片探针排布的信息(哪个探针来自哪个探针组),才可以得到芯片上每个探针组对应的表达数据,这就需要CDF文件。另一个重要的文件是Probe文件,它提供了探针的序列信息。

除了上述提到的几种文件格式,常见的还有EXP文件、CHP文件、TXT文件和RPT文件。TXT文件特指包含基因表达矩阵的TXT文件,CHP文件与TXT文件内容基本相同。

图不好传,更多点击查看

上一篇 下一篇

猜你喜欢

热点阅读