使用aspera从ENA下载fastq数据
2021-05-08 本文已影响0人
洛洛爱大神
- 挑选需要的数据
GSE102113数据集的一部分(其中9个样本):
图片.png
页面下方找到SRA的编号和BioProject的编号,后面都会用到
图片.png
点进SRA数据页面,勾选需要的数据集,输出需要的SRR编号列表,得到一个文本文档
图片.png
图片.png
打开ENA数据库https://www.ebi.ac.uk/ena/browser/home,并输入BioProject编号:PRJNA396698,选择自己需要的SRR文件并下载它们的tsv格式报告,里面有fastq aspera下载地址。
图片.png
- 下载aspera软件
#进入小环境
conda activate rna
#下载
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
#解压缩
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
# 安装
bash aspera-connect-3.7.4.147727-linux-64.sh
#在根目录查找是否有aspera
cd ~ # go to root directory
ls -a # if you could see .aspera, the installation is OK
# 添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
#密钥备份到/home/的家目录(后面会用,否则报错)
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
#检查帮助文档是否调用成功
ascp --help
- 下载fastq数据
# 批量下载
# 命令
outputdir=/home/data/vip02/project/ZHL/data/rawdata
cat fastqid2.txt |while read id
do
echo "ascp -k 1 -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}"
done >fastq.download.sh
# 提交后台
nohup sh fastq.download.sh >fastq.download.log &
不知为什么批量下载一直报错,于是很笨地一个个下载了
#单独下载 gz格式
nohup ascp -k 1 -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR795/007/SRR7959287/SRR7959287_2.fastq.gz . &