GEO SRA ArrayExpress ENA 数据挖掘生信在线工具RNAseq

一个不一样的NCBI下载方法

2020-02-25  本文已影响0人  城管大队哈队长

之前在twitter上看见一个老哥开发了一个网站 sra-explorer,大致意思就是能够解析你输入的SRA号,比如说GSEXXX,SRPXXX,SRRXXX等(就是文章最后面附上的数据地址),但只是收藏了一直没当回事,毕竟我一直用 prefetch + fasterq-dump ,而且我下别人的数据也不太多。但今天突然需要下载一些别人的数据,但我又懒得再去翻我的关于NCBI数据下载和解压缩的cheatsheet :),于是我就想起了这个网站。用了下发现特别香。

这个网站的基本组成就是这样的,你只需要输入SRA号,其就会自动解析对应的数据集,然后你只要勾选加入到购物栏,然后再换一批数据,再勾选,再加入。到你完全挑选完你的数据之后,点下右上方的购物栏,就可以转到另一个界面

Fig.1

这个界面就自动帮你列出了你的下载代码,我这里是用了现成的Bash script,然后在curl -L的每行代码后面加了个 & 来并行下载所有的fq.gz文件。

Fig.2

至于这个速度,我感觉1G的数据差不多10分钟之内就搞定了。虽然这个看起来不是很快,但是这是直接得到fq.gz文件,非常的方便。而不是像prefetch + fasterq-dump ,你得先得到SRR文件,然后再用fasterq-dump来拆解。

顺便吐槽下,我永远记不住 prefetch和fasterq-dump 的命令。而且prefetch这货还会把文件下载到一个特定位置,哪怕你已经设置了下载路径。

当然,prefetch + fast(er)q-dump 只要你会配置,还是很方便的。但人类的本质不就是懒么……

顺便提下这个网站的原理,因为实际上,你除了用prefetch SRR下载数据之外,NCBI还允许你直接去 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ 这里面直接下载fastq文件,这个网站就是利用你输入的数据库ID,贴心地帮我们找到了对应的fq地址。

参考文章

上一篇下一篇

猜你喜欢

热点阅读