SRA原始数据高速下载
2018-09-15 本文已影响69人
谢俊飞
前言:
微博参与话题 #给你四年时间你也学不会生信#
linux环境下:
1. 安装sratoolkit
# 安装curl
xjf@ubuntu:~$ sudo apt install curl
# 下载 SRA toolkit
xjf@ubuntu:~$ curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz
#解压
xjf@ubuntu:~$ tar -zxvf sratoolkit.2.8.2-centos_linux64.tar.gz
# 配置环境变量(将bin目录添加到环境变量)
xjf@ubuntu:~$ vim ~/.bashrc
xjf@ubuntu:~$ export PATH="/home/xjf/tools/sratoolkit.2.9.1-1-ubuntu64/bin:$PATH"
或重定向
echo export PATH="/home/xjf/tools/sratoolkit.2.9.1-1-ubuntu64/bin:$PATH" >> ~/.bashrc
# 更新配置
xjf@ubuntu:~$ source ~/.bashrc
用法:
prefetch [options] <SRA accession | kart file> [...]
Download SRA or dbGaP files and their dependencies
prefetch [options] <SRA file> [...]
Check SRA file for missed dependencies and download them
prefetch --list <kart file> [...]
List the content of a kart file
2. 安装Aspera connect
# 下载 aspera connect
xjf@ubuntu:~$ curl -O http://download.asperasoft.com/download/sw/connect/3.6.1/aspera-connect-3.6.1.110647-linux-64.tar.gz
# 解压
xjf@ubuntu:~$ tar -zxvf aspera-connect-3.6.1.110647-linux-64.tar.gz
(解压后为aspera-connect-3.6.1.110647-linux-64.sh)
# 安装
xjf@ubuntu:~$ sh aspera-connect-3.6.1.110647-linux-64.sh
或者<pre name="code" class="plain">./aspera-connect-3.6.1.110647-linux-64.sh*
# 添加到环境变量
xjf@ubuntu:~$ export PATH="/home/xjf/tools/aspera-connect-3.6.1.110647-linux-64.sh:$PATH"
3. FTP数据库下载
# sratoolkit的prefetch可直接调用ascpra,而没有安装ascp之前直接用http源下载
xjf@ubuntu:~$ prefetch -v SRR957677 -o file
# 批量执行
cat id | while read id; do nohup prefetch -v -o ./data $id &; done
# 释义
查看id文件内容;读取id文件内容;将读取到的SRR ID号执行prefetch -v -0 ./data ,并放入后台
# -o 输出文件地址
# -v 增加程序状态消息的详细程度,多次使用可获得更多详细程度,否定安静。
若批量下载,先找到GEO数据库连接,并在SRA Run Selector中查看,下载Accession List,文件命名为id
10000.png
windows环境下:
1. 安装aspera connect
连接:https://downloads.asperasoft.com/connect2/
默认即可
2. NCBI数据库
SRR数据库连接:https://www.ncbi.nlm.nih.gov/public/
3. 下载SRA数据
选择相应的SRR资源,点击下载,会自动连接到aspera connect,选择下载路径即可。
注意:部分SRR文件不可下载,例如我选择的 SRR957677,则需要进入linux环境下载。
`