NGS小技能(2):如何进行SRA到fastq格式的快速转换
前言
生物信息分析人员一般会接触到从NCBI等网站下载的SRA数据,之前也介绍了下载SRA数据的几种方式。下面,我就简单介绍一下如何将下载的sra格式数据转换成为常用的fastq等格式。
方法
1、NCBI sratoolkit 工具的fastq-dump命令
1)下载sratoolkit
$ wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz
2)解压缩
$ tar xzvf sratoolkit.2.8.2-centos_linux64.tar.gz
3)添加环境变量
$ echo "export PATH=$PATH:/Software/sratoolkit.2.8.2-centos_linux64/bin" >> ~/.bash_profile
$ source ~/.bash_profile
4)格式转换
单端测序:
$ fastq-dump SRR029945.sra -O ./ (结果生成:SRR029945.fastq)
$ fastq-dump --fasta SRR029945.sra -O ./ (结果生成:SRR029945.fasta)
双端测序:
$ fastq-dump SRR2090164.sra --split-3 -O ./ (结果生成:SRR2090164_1.fastq,SRR2090164_2.fastq)
$ fastq-dump SRR2090164.sra --split-3 --gzip -O ./ (结果生成:SRR2090164_1.fastq.gz, SRR2090164_2.fastq.gz)
2、pfastq-dump 让转换速度提升数倍
1)下载pfastq-dump
$ git clone https://github.com/inutano/pfastq-dump
$ cd pfastq-dump/bin/
$ chmod a+x pfastq-dump
$ cp pfastq-dump /Software/sratoolkit.2.8.2-centos_linux64/bin
2)转换格式
单端测序:
$ pfastq-dump SRR029945.sra -O . -t 8 (8线程)
双端测序:
$ pfastq-dump SRR2090164.sra --split-3 --gzip -O ./ -t 8 (8线程)
你将会体会到飞一样的速度~
结语
更多相关博文,可阅读:
hoptop:Fastq-dump: 一个神奇的软件
inutano:parallel-fastq-dump implementation in bash script