单细胞测序

从中国核酸数据库GSA下载单细胞数据

2020-11-25  本文已影响0人  周运来就是我

第一次使用GSA大约是2018年,那一次是往该数据库上传数据。

单细胞数据呈指数增长,对一个实验室也好,对一家科研单位也好,对一个国家也好,数据的管理显得日益重要。数据管理在技术上是平台的搭建,做好平台,大家可以在上传和下载或者分析数据。今天我们介绍一下如何从中国核酸数据库(GSA)下载单细胞转录组原始数据,并Run 起Cellragner(其他平台自然换成他们的定量软件)。

组学原始数据归档库(GSA)属于生物数据递交系统(BIG Submission, BIG Sub),后者是国家基因组科学数据中心生物数据统一汇交入口,为用户提供一站式数据递交服务。

https://bigd.big.ac.cn/gsub/

数据库后台对科学家是十分友好的,有专属的用户QQ群,在使用过程中遇到问题可以随时在群里咨询(主要是汉语),既有工作人员,也有我这样的使用过的同学,为您排忧解惑。

首先,我们有一篇文章需要下载,一看Data availability刚好在我们的GSA数据库中:

我们点击HRA的编号链接,后进入该数据的主页:

这样,再点击Request Data,如果是第一次使用就需要注册啦。

基本上按照提示就可以完成注册啦。注意注册邮箱和个人主页需要是学术单位的哦,用户注册他们也是要审核的。满足条件的话,通过是很快的啦。

合法登陆之后,就可以开始申请数据了。我们可以在GSA搜索前面的编号,可以从文章链接转到Request页面,申请数据需要说明申请数据主要用于什么,需要的信息是:


每一项简明扼要写清楚即可。

在申请的结尾处有一个GSA-Human 数据访问协议,这个还是建议认真看看的,主要是一些法律条文。 agree之后,申请工作就算完成啦,接下来是等待审核。

这个看文章作者和平台的审核速度啦,建议申请通过两天没动静可以和工作人员说一下,看看在哪里有卡点,及时通过邮件联系。

数据申请通过之后,申请的列表是这样的:

点击download就可以看到ftp链接了,这时候可用Filezilla下载,如果数据较大,建议用wget下载,直接批量地下到集群:

wget   -b -c  --user=申请时候的用户名  --password=密码  --mirror ftp://链接

如果下载有困难除了在群里咨询,您还可以申请邮寄:

下载完之后,我们知道要RunCellranger 至少需要两个fq。当然,在看文章的时候,我们就已经知道这里的数据是用哪个平台做的了,需要注意的是,10X平台试剂软件版本更新较快,最好文章用哪个版本的数据我们就用哪个版本的,比如V2 和V3的试剂barcode长度不同了,有可能影响cell calling的结果。 所以我们需要看看自己下载的fq数据长得是什么样子的,特别是reads1。

下载完数据后,至少要:

接下来可以Run 上Cellranger了。

cellranger count --id=run_count_1kpbmcs \
--fastqs=/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/refdata-cellranger-GRCh38-3.0.0

然后就是降维聚类必知必会balabala了。

其实有文档的啦:

GSA数据信息结构图解(推荐)

中国核酸数据库GSA数据提交指南

上一篇 下一篇

猜你喜欢

热点阅读