[神器分享] 自从用了这个神器，大规模RNA-seq数据挖掘我也

2019-02-17 本文已影响32人医科研

作者：白介素2
大家好，我是白介素2同学，想必小伙伴们早已开工了，白介素同学这个春节实在是没怎么学习呀（所谓人在江湖，身不由己，容我甩个锅），惭愧惭愧，悟已往之不谏，知来者之可追。新的一年，我们都是追梦人！
追梦，分享一个神器，向科研更深处探索

咱不来虚的，只分享干货，不谈枯燥的理论，只来通俗易懂的操作。先来看一张图：

image.png
通过这张图展示的是 GEO数据库中的 RNA-seq****数据与芯片数据积累随时间的变化，很显然测序数据从2015年开始就已经超过了芯片数据的累积。大批量的数据产生固然是个好事，同时也带来了一个问题，公开的RNA-seq数据大多提供的是原始数据，这样就对数据的重新挖掘使用带来了很大困难。为啥嘞，数据量太大，临床医生，小实验室你确定做得了，就连测序数据从原始数据开始的分析都会遇到很多困难？今天要介绍的神器呢叫做 ARCHS4，它的诞生呢就是为了解决这个问题，过程讲的比较复杂，简单讲就是有一个团队人家用有效的设备算法把 GEO/SRA****的 原始数据整合，分析，预处理成方便后续分析的矩阵格式，就像 TCGA那样的数据库，之所以应用广泛，数据整理的格式就是原因之一呀。该数据库包括人和鼠的sample 187,946 , 其中人84,863，鼠103,083。接下来就看下具体这个神器有哪些功能吧：

数据下载功能Download

https://amp.pharm.mssm.edu/archs4/download.html

image.png
可供下载的数据包括：

image.png

image.png
这里只列举了部分，甚至还包括了 TCGA的数据，数据都整理为 H5格式，数据包括原始的 read count数据和 meta data信息，简单讲这些数据都整理成了方便后续分析的矩阵格式，可以这样全部下载。
当然也可以挑选自己感兴趣的下载，可以挑选自己感兴趣的组织，细胞系，也可以手动选择，基因集，Download部分会自动产生下载数据的 R代码，放到 Rstudio运行即可。