SRA数据下载RNA-seq

fasterq-dump 人多力量大

2020-12-12  本文已影响0人  nanyisk2017

fasterq-dump 人多力量大,核多干饭香

最近开始入门生信,第一次感觉到自己的头发可能要离自己远去了。

作为湿实验的大佬(自封),自然是没有什么服务器的,所以我开始了使用Windows10内置Linux子系统作为入门的第一步。

界面

作为小白用户,感觉还是很方便的(颜色真的不会改),主要是和windows本身文件互通,在/mnt下直接可以查看其它盘的文件


小姐姐的家

今天发现sra转fastq时候,使用fastq-dump的速度的速度极其感人

fastq-dump --gzip --split-e -O . SRR1039508

本身电脑配置其实还行,AMD的3600,外加32G内存,处理一个2G不到的sra文件竟然需要1个小时。
后面发现生信技能树的教程(强烈推荐报名上课呀!!!!不是托)中还有另外一个备注

#fasterq-dump --split-files SRR11180057.sra

以我多年考六级的经验来着,带er的东西肯定更强(狗头)
所以先简单百度了一下,发现这个fasterq-dump支持多线程,而fastq-dump是个单线程软件,所以小学思维,6个小学生肯定打得过一个小学生。
开始装 fasterq-dump

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-ubuntu64.tar.gz
#有耐心的可以等,80m的大小,但是速度只有20k左右。迅雷还能快点
#常规安装
tar -xzf  sratoolkit.2.10.8-ubuntu64.tar.gz
#直接解压后就可以添加环境变量了
echo "export PATH=/home/nanyisk/sratoolkit.2.10.8-ubuntu64/bin:\$PATH ">>~/.bashrc
source ~/.bashrc

搞定之后就可以用tap键补齐了


没得感情的图注

首先查看帮助文档


没得感情的图注2

常规的不说,首先是-e,可以设置线程数,再者竟然有进度条选项 -p,入门生信的三周中,无数次在运行之后陷入沉思,“我在干嘛?”,“开始了吗?”,“是不是死机了?”,有进度条真的太友好了。其它的选项看不懂,先放过去了。那就先上一个数据试试。


没得感情的图注2
这是几个意思????学生信最怕否定句!!!
没办法,他说啥就干啥呗
vdb-config --interactive

运行之后我震惊了。。。。第一次见这种界面的东西。以我多年考六级的经验,默认是最保险的(default)。标红加下划线的那个字母应该就是那个选项的按键。


image.png

点击f(default)之后点击y(yes),再点o(OK),感觉这里面好像挺多东西的, 但是都不懂,就放过去了。


image.png
再来一次
nanyisk@DESKTOP-Q7CG9MK:/mnt/w/20201209-rowdata$ fasterq-dump -e 100 -p -3 -O ferd/ SRR1039508     
#别问我为啥100个线程,能设置多线程的程序我都设置100个。                                                                                                                                                           

有进度条真的安心呀


image.png

这速度无敌了,我自己用手机记了一下时间,只需要4分26秒(time命令到底怎么用呀!!!)


image.png
生成了read1和2两个文件

总结一下,fasterq-dump速度可以完胜fastq-dump,值得注意的是,fasterq-dump没有压缩选项,而fastq-dump可以直接输出gz压缩fq文件,这个还是比较可惜的,后续的操作自己还没学到,目前还不清楚对后续的流程有没有影响,不过即使有,应该也就是一个压缩命令的事情。

上一篇下一篇

猜你喜欢

热点阅读