用Aspera软件下载SRR数据

2018-12-21  本文已影响0人  琦_0c2a

SRA数据库

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括454,Illumina,SOLiD,IonTorrent,Helicos 等,SRA数据可以分为Studies,Experiments,Samples,Runs四类。SRA数据库中用不同的前缀加以区分四类数据: ERP或SRP表示Studies数据,SRS 表示 Samples数据,SRX 表示 Experiments数据,SRR 表示 Runs数据。下面以SRR数据为例,展示如何用Aspera软件进行快速下载数据。

Linux下安装Aspere

使用wget命令,输入以下网址下载Aspera软件包:

wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz

解压缩:

tar -zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz

安装:

sh aspera-connect-3.6.2.117442-linux-64.sh

Aspera安装
#安装只能在普通用户下进行

查看是否安装成功:

~/.aspera/connect/bin/ascp -h

下载SRR数据

获取下载地址:

根据所需数据的accession no.,浏览器进入NCBI的FTP服务器,找到所需的数据 。这里以SRR6208854为例:

NCBI的FTP服务器中获取下载地址
复制图中SRR6208854.sra的链接地址:
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

将FTP地址改为:(只有黑体加粗部分不同)

anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

运行Aspera:

~/.aspera/connect/bin/ascp -T -i /home/hqw/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftpprivate.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR62088 54/SRR6208854.sra ./
结果如下:

运行Aspera下载文件
有时因为网络等问题会导致下载失败(如图所示),待网络情况恢复良好重新尝试即刻。

参数说明:

-T : 不进行加密
-i: string 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥
-l: string 设置最大传输速度
-k 1: 支持断点续传
--host=string : ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为 fasp.sra.ebi.ac.uk

上一篇下一篇

猜你喜欢

热点阅读