使用SRA Toolkit下载NCBI-SRA原始数据教程
SRAtoolkit是NCBI开发的一个用于SRA文件处理的软件包,包含许多有用的工具。
一. 下载安装
1. 可以在NCBI上下载,网址为:
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
我们的服务器使用的是centos操作系统,可以使用wget命令直接下载到服务器端,命令如下
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.1/sratoolkit.2.11.1-centos_linux64.tar.gz
2. 解压安装
下载之后使用tar命令解压后就可以直接使用
tar zvxf sratoolkit.2.11.1-centos_linux64.tar.gz
3. 测试安装是否成功
#输入软件所在位置并输入 -h
~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h
若显示如下图则可以使用了
image.png
也可以用conda快捷安装
4. 将sratoolkit 添加到环境变量
#进入环境变量所在的目录后输入
echo 'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
#这里面的~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin表示是sratoolkit 所在的目录
5. 再次测试sratoolkit 的安装
将sratoolkit路径加入环境变量之后就可以直接使用sratoolkit了,不需要每次使用时再输入安装路径:
输入
fastq-dump -h
屏幕显示为
image.png
则表示可以使用了。
6. 更改下载路径
若不修改,则下载到~/ncbi/public/sra 目录下, 在服务器上通常需要下载到指定目录, 所以安装好以后需要更改默认下载目录.
找到并进入sratoolkit所在目中的bin文件夹:输入 ./vdb-config -i ,会出现如下的界面:
image.png
按上下键移动,到Change,回车后选择对应的目录『该目录必须为空』,移动到Save回车后,移动到Exit回车
二、SRA数据的下载
如果下载单个样品的SRA,可以在NCBI上先找到SRA 的ID,如在NCBI上找到的Oreocharis longifolia ID为 SRR12339613,可以在服务器上输入
nohup fastq-dump SRR12339613 &
即可进行下载SRA文件.
或直接将文件下载并转成双端的fastq的gz压缩文件。
nohup fastq-dump --split-files SRR12339613 -gzip &
# --split-files -gzip 会将SRA文件下载的同时分割成正反两个方向测序的文件并进行压缩
下载之后会获得下图这样的文件,就是转录组双向测序的文件.
image.png
若需要批量下载,可先获得ID list, 如若需要某一个项目中的所有SRA数据,可以直接在NCBI中搜索该project的ID,获得Accession List。
image.png
然后输入
prefetch --option-file SRR_Acc_List.txt
进行批量下载
sratoolkit常用命令
fastq-dump SRR12339613 #将sra转换成fastq
fastq-dump --fasta 50 SRR12339613 #sra转换成fasta,50为每行50个碱基
fastq-dump --split-files SRR12339613 #将双端测序文件分开
fastq-dump --split-3 filename其中--split-3参数代表着如果是单端测序就生成一个 、.fastq文件,如果是双端测序就生成_1.fastq 和*_2.fastq 文件。
若下载下来的为sra文件需要批量转化为fastq文件,可以使用简单的for循环脚本:
for i in *sra
do
echo $i
fastq-dump --split-3 $i
done