生信

Q:什么是ArrayExpress数据库?

2021-04-11  本文已影响0人  高大石头

1.概述

ArrayExpress是功能基因组学(Functional Genomics)数据集的主要公共存储库之一,与GEO数据库类似。主要包括Microarray(微阵列芯片)和High-throughput sequencing(高通量测序)数据,也包括甲基化、CHIP-seq和基因分型(genotypping)等数据。

为支持可重复的研究,可以根据芯片实验的最低信息(MIAME)和测序实验的最低信息(MINSEQE)指南向ArrayExpress进行提交,这些标准支持科学数据的支持和重用。

ArrayExpress既包含GEO的所有数据,同时还包含ArrayExpress自身以及其他数据库如Expression Atlas、CCLE等多种数据,简直就是个大熔炉。

ArrayExpress数据概述
基于开放、包容的理念,EMBL-EBI(European Bioinformatics Institute)欧洲生物信息学研究院更是想收纳所有生物学信息实验的数据BioStudies.

BioStudies中有ArrayExpress模块,能与其实现无缝对接,不得不佩服EMBL-EBI的战略眼光!

2.数据结构

2.1 元数据(metadata)

(备注:MAGE-TAB: MicroArray and Gene Expression Tab,芯片基因表达制表符分割,一种支持MIAME的芯片数据简单格式,由Functional Genomics Data Society联合制定。)

数据提交流程

ArrayExpress的主要研究对象是Experiment,每一个实验包含两个MAGE-TAB文件:

metadata元数据
IDF:主要介绍整个实验的概述,类似SCI论文中的Abstract,包含标题、提交者的联系方式、出版物信息等。
IDF文件

SDRF:描述了所有的样本特征(如细胞类型、样本处理方式),并将每个样本链接到相应的数据文件。SDRF的结构(即列的顺序)反映了从原材料→中间步骤(如核酸标记、测序文库制备等)→原始数据→处理后数据的整个环节。

2.2 原始数据和处理后数据(raw and processed data)


ArrayExpress主要储存raw data和processed data,由于测序数据内容较大,其raw data(fastq数据)储存在ENA(European Nucleotide Archive);processed data(如BAM、normalised read count matrices)直接储存在ArrayExpress。

raw data processed data

2.3 实验变量(The experimental variable)

每个实验metadata最重要的元素→实验变量。
主要描述实验的设计,即实验组和对照组,进行的什么处理。


实验变量

3.搜索

搜素及浏览

自定义筛选条件


常用的高级检索缩写:

Experimental Factor Ontology

结果页面

点击某个实验后,可看到具体的信息

4.数据处理

4.1 芯片数据处理

每家芯片制造商通常会提供数据打开、分析其原始数据的文件,有几种常用的芯片下游分析的免费工具。如:Galaxy、GenePattern、R。


常见芯片原始数据

在芯片分析过程中,探针ID转换是必不可少的,查看Bioconductor可以发现有971个注释R包。

注释R包
如果需要转换探针的数量比较少,可以直接用在线工具:DAVID.

但是当数据比较多时,怎么办呢?
幸好已经有大佬提前给咱们处理好了,推荐R包:AnnoProbe

AnnoProbe
一共包含185个平台的注释文件,基本解决80%常见芯片注释。

4.2测序数据

测序数据

测序数据,需要质控、比对等步骤,对运算资源要求比较高,最好在linux下进行操作,差异分析一般用DeSeq2、edgeR。处理的数据包括RPKM/类似counts数据,可以类似芯片数据进行分析。

备注:有许多高质量的芯片和测序结果,被收录在Expression Atlas中,我们可以在ArrayExpress中搜索“Atlas”查看和下载基因表达情况。
参考链接:
ArrayExpress Discover functional genomics data quickly and easily

上一篇 下一篇

猜你喜欢

热点阅读