生信分析

使用aspera从ENA下载fastq数据

2021-05-08  本文已影响0人  洛洛爱大神
  1. 挑选需要的数据
    GSE102113数据集的一部分(其中9个样本):
    图片.png
    页面下方找到SRA的编号和BioProject的编号,后面都会用到
    图片.png
    点进SRA数据页面,勾选需要的数据集,输出需要的SRR编号列表,得到一个文本文档
    图片.png
    图片.png
    打开ENA数据库https://www.ebi.ac.uk/ena/browser/home,并输入BioProject编号:PRJNA396698,选择自己需要的SRR文件并下载它们的tsv格式报告,里面有fastq aspera下载地址。
    图片.png
  2. 下载aspera软件
#进入小环境
conda activate rna
#下载
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz  
 
#解压缩 
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
 
# 安装
bash aspera-connect-3.7.4.147727-linux-64.sh

#在根目录查找是否有aspera
cd ~ # go to root directory
ls -a # if you could see .aspera, the installation is OK

# 添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc   

#密钥备份到/home/的家目录(后面会用,否则报错)
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/

#检查帮助文档是否调用成功
ascp --help 


  1. 下载fastq数据
# 批量下载

# 命令
outputdir=/home/data/vip02/project/ZHL/data/rawdata
cat  fastqid2.txt |while read id
do
    echo "ascp -k 1 -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}"
done >fastq.download.sh

# 提交后台
nohup sh fastq.download.sh >fastq.download.log &

不知为什么批量下载一直报错,于是很笨地一个个下载了

#单独下载 gz格式
nohup ascp  -k 1 -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR795/007/SRR7959287/SRR7959287_2.fastq.gz . &
上一篇 下一篇

猜你喜欢

热点阅读