Q:什么是ArrayExpress数据库?
![](https://img.haomeiwen.com/i17982813/a92696ec89c69297.png)
1.概述
ArrayExpress是功能基因组学(Functional Genomics)数据集的主要公共存储库之一,与GEO数据库类似。主要包括Microarray(微阵列芯片)和High-throughput sequencing(高通量测序)数据,也包括甲基化、CHIP-seq和基因分型(genotypping)等数据。
为支持可重复的研究,可以根据芯片实验的最低信息(MIAME)和测序实验的最低信息(MINSEQE)指南向ArrayExpress进行提交,这些标准支持科学数据的支持和重用。
ArrayExpress既包含GEO的所有数据,同时还包含ArrayExpress自身以及其他数据库如Expression Atlas、CCLE等多种数据,简直就是个大熔炉。
![](https://img.haomeiwen.com/i17982813/0a4d1386b689892f.png)
基于开放、包容的理念,EMBL-EBI(European Bioinformatics Institute)欧洲生物信息学研究院更是想收纳所有生物学信息实验的数据BioStudies.
![](https://img.haomeiwen.com/i17982813/d8889d79ea69ba40.png)
BioStudies中有ArrayExpress模块,能与其实现无缝对接,不得不佩服EMBL-EBI的战略眼光!
![](https://img.haomeiwen.com/i17982813/2830d616980aebae.png)
2.数据结构
2.1 元数据(metadata)
(备注:MAGE-TAB: MicroArray and Gene Expression Tab,芯片基因表达制表符分割,一种支持MIAME的芯片数据简单格式,由Functional Genomics Data Society联合制定。)
![](https://img.haomeiwen.com/i17982813/cc27928b8976ddbf.png)
ArrayExpress的主要研究对象是Experiment,每一个实验包含两个MAGE-TAB文件:
![](https://img.haomeiwen.com/i17982813/8c22451c815d3f14.png)
IDF:主要介绍整个实验的概述,类似SCI论文中的Abstract,包含标题、提交者的联系方式、出版物信息等。
![](https://img.haomeiwen.com/i17982813/4739ae36bbfd826b.png)
SDRF:描述了所有的样本特征(如细胞类型、样本处理方式),并将每个样本链接到相应的数据文件。SDRF的结构(即列的顺序)反映了从原材料→中间步骤(如核酸标记、测序文库制备等)→原始数据→处理后数据的整个环节。
![](https://img.haomeiwen.com/i17982813/b7668667a39fe477.png)
2.2 原始数据和处理后数据(raw and processed data)
![](https://img.haomeiwen.com/i17982813/c856576de126c646.png)
ArrayExpress主要储存raw data和processed data,由于测序数据内容较大,其raw data(fastq数据)储存在ENA(European Nucleotide Archive);processed data(如BAM、normalised read count matrices)直接储存在ArrayExpress。
-
raw data
![](https://img.haomeiwen.com/i17982813/67507cf74a28781c.png)
-
processed data:不同的芯片处理的方式不一样,大致包括背景矫正、log2转换、数据归一化等。可以根据Protocol REF查看处理的细节。
![](https://img.haomeiwen.com/i17982813/3b27156b08662e15.png)
2.3 实验变量(The experimental variable)
每个实验metadata最重要的元素→实验变量。
主要描述实验的设计,即实验组和对照组,进行的什么处理。
![](https://img.haomeiwen.com/i17982813/8cd316c51d740b5a.png)
3.搜索
![](https://img.haomeiwen.com/i17982813/18b82bcae0a39f08.png)
自定义筛选条件
![](https://img.haomeiwen.com/i17982813/481dc1d74ff6edfe.png)
常用的高级检索缩写:
- organism: organism
- Experimental factor (experimental variable): ef
- the value of an experimental factor: efv,如efv:"diabetes" AND efv:"normal"
- the assay technology: exptype, 如 extype: "Transcription profiling"
- any attribute of the biological sample: sa
![](https://img.haomeiwen.com/i17982813/90be45e2efff3b38.png)
结果页面
![](https://img.haomeiwen.com/i17982813/62a697c23ddfb43c.png)
点击某个实验后,可看到具体的信息
![](https://img.haomeiwen.com/i17982813/7b00c50af4196526.png)
4.数据处理
4.1 芯片数据处理
每家芯片制造商通常会提供数据打开、分析其原始数据的文件,有几种常用的芯片下游分析的免费工具。如:Galaxy、GenePattern、R。
![](https://img.haomeiwen.com/i17982813/f7c75b3cfe43e5cb.png)
在芯片分析过程中,探针ID转换是必不可少的,查看Bioconductor可以发现有971个注释R包。
![](https://img.haomeiwen.com/i17982813/83a93108a6238949.png)
如果需要转换探针的数量比较少,可以直接用在线工具:DAVID.
但是当数据比较多时,怎么办呢?
幸好已经有大佬提前给咱们处理好了,推荐R包:AnnoProbe
![](https://img.haomeiwen.com/i17982813/328abd83159fcb8a.png)
一共包含185个平台的注释文件,基本解决80%常见芯片注释。
4.2测序数据
![](https://img.haomeiwen.com/i17982813/f39cf63a2ab12360.png)
测序数据,需要质控、比对等步骤,对运算资源要求比较高,最好在linux下进行操作,差异分析一般用DeSeq2、edgeR。处理的数据包括RPKM/类似counts数据,可以类似芯片数据进行分析。
备注:有许多高质量的芯片和测序结果,被收录在Expression Atlas中,我们可以在ArrayExpress中搜索“Atlas”查看和下载基因表达情况。
参考链接:
ArrayExpress Discover functional genomics data quickly and easily