NGS小技能(1):下载SRA数据的N种方法
前言
从事生物信息分析的老师和同学一般都会接触SRA数据,网上介绍的下载SRA数据方法也是各种各样,到底哪一种更好,关键在于哪种更适合你自己。下面我就跟大家分享一下,目前适合我的几种下载方式(没错,排在第一的是迅雷...)。
方法
1)信息检索
在 NCBI 网站SRA 数据库中搜索:项目ID(PRJ开头)、 Run ID(PRR开头),点击send to,发送搜索结果信息到: Run Selector
fig1.png2)选择数据
勾选要下载的数据,点击: Accession List
3)获取地址
根据下载得到的SRR_Acc_List.txt 获取你所需要的下载地址或者命令:
(1)迅雷下载
$ perl -ne 'chomp;print "http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/$1/$1$2/$_/$_.sra \n" if(/^(\w{3})(\d{3})/); ' SRR_Acc_List.txt > download_urls.txt
$ cat download_urls.txt
http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4389352/SRR4389352.sra
http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4389122/SRR4389122.sra
http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4388699/SRR4388699.sra
http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090164/SRR2090164.sra
http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090165/SRR2090165.sra
http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090166/SRR2090166.sra
(2)wget 下载
$ perl -ne 'chomp;print "wget -c http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/$1/$1$2/$_/$_.sra \n" if(/^(\w{3})(\d{3})/); ' SRR_Acc_List.txt > wget.sh
$ cat wget.sh
wget -c http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4389352/SRR4389352.sra
wget -c http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4389122/SRR4389122.sra
wget -c http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4388699/SRR4388699.sra
wget -c http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090164/SRR2090164.sra
wget -c http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090165/SRR2090165.sra
wget -c http://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090166/SRR2090166.sra
(3)ascp 下载
$ perl -ne 'chomp;print "ascp -QT -l 100M -i /Software/aspera-connect-3.6.2/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/$1/$1$2/$_/$_.sra .\n" if(/^(\w{3})(\d{3})/); ' SRR_Acc_List.txt > ascp.sh
$ cat ascp.sh
ascp -QT -l 100M -i /Software/aspera-connect-3.6.2/etc/asperaweb_id_dsa.openssh anonftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4389352/SRR4389352.sra .
ascp -QT -l 100M -i /Software/aspera-connect-3.6.2/etc/asperaweb_id_dsa.openssh anonftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4389122/SRR4389122.sra .
ascp -QT -l 100M -i /Software/aspera-connect-3.6.2/etc/asperaweb_id_dsa.openssh anonftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR438/SRR4388699/SRR4388699.sra .
ascp -QT -l 100M -i /Software/aspera-connect-3.6.2/etc/asperaweb_id_dsa.openssh anonftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090164/SRR2090164.sra .
ascp -QT -l 100M -i /Software/aspera-connect-3.6.2/etc/asperaweb_id_dsa.openssh anonftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090165/SRR2090165.sra .
ascp -QT -l 100M -i /Software/aspera-connect-3.6.2/etc/asperaweb_id_dsa.openssh anonftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR209/SRR2090166/SRR2090166.sra .
(未完待续...)
结语
下载SRA数据对于生信人来说,是一个很基础的技能,之所以写出来,是为了记录整理,也是为了分享,欢迎补充~
更多相关博文,可阅读:
dulunar : NCBI-SRA和EBI-ENA数据库