使用aspera从ENA下载fastq数据

2021-05-08 本文已影响0人洛洛爱大神

挑选需要的数据
GSE102113数据集的一部分（其中9个样本）：
图片.png
页面下方找到SRA的编号和BioProject的编号，后面都会用到
图片.png
点进SRA数据页面，勾选需要的数据集，输出需要的SRR编号列表，得到一个文本文档
图片.png
图片.png
打开ENA数据库https://www.ebi.ac.uk/ena/browser/home，并输入BioProject编号：PRJNA396698，选择自己需要的SRR文件并下载它们的tsv格式报告，里面有fastq aspera下载地址。
图片.png
下载aspera软件

#进入小环境
conda activate rna
#下载
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz  
 
#解压缩 
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
 
# 安装
bash aspera-connect-3.7.4.147727-linux-64.sh

#在根目录查找是否有aspera
cd ~ # go to root directory
ls -a # if you could see .aspera, the installation is OK

# 添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc   

#密钥备份到/home/的家目录（后面会用，否则报错）
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/

#检查帮助文档是否调用成功
ascp --help

下载fastq数据

# 批量下载

# 命令
outputdir=/home/data/vip02/project/ZHL/data/rawdata
cat  fastqid2.txt |while read id
do
    echo "ascp -k 1 -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}"
done >fastq.download.sh

# 提交后台
nohup sh fastq.download.sh >fastq.download.log &

不知为什么批量下载一直报错，于是很笨地一个个下载了

#单独下载 gz格式
nohup ascp  -k 1 -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR795/007/SRR7959287/SRR7959287_2.fastq.gz . &

使用aspera从ENA下载fastq数据

猜你喜欢

热点阅读