走进转录组

Linux下通过Kingfisher下载RNA-seq数据

2022-07-04  本文已影响0人  队长的生物实验室

一般在进行公共测序数据挖掘的时候,需要从公共数据库中(SRA、ENA、DDBJ等)下载自己所需的测序数据。下载数据时,往往会遇到网速限制或下载链接不可用等因素,这里介绍Kingfisher工具,自动下载,方便又省力。本文主要复现代码的可行性。

kingfisher安装

#创建虚拟环境及安装依赖包
conda create -c conda-forge -c bioconda -n kingfisher pigz python extern curl sra-tools pandas requests aria2
#激活虚拟环境
conda activate kingfisher#使用conda activate不能成功激活环境时可以尝试使用:source activate kingfisher
#安装bird_tool_utils
pip install bird_tool_utils'>='0.2.17
#下载kingfisher
git clone https://github.com/wwood/kingfisher-download
#切换到bin文件夹下
cd kingfisher-download/bin
#配置环境变量
export PATH=$PWD:$PATH
#调出帮助文档,如果出现则安装成功
kingfisher -h
kingfisher -h

下载数据

kingfisher get -r SRR7699520 -m ena-ftp
#-r Run number(s) to download/extract e.g. ERR1739691
#-p BioProject IDs number(s) to download/extract from e.g. PRJNA621514 or SRP260223
# -m ena-ascp、ena-ftp、prefetch、aws-http、aws-cp、gcp-cp
# --download-threads 线程数
数据下载源介绍(-m参数):
ena-ascp,调用Aspera从ENA中下载.fastq.gz数据
ena-ftp,调用curl从ENA中下载.fastq.gz数据
prefetch,调用prefetch从NCBI SRA数据库中下载SRA数据,然后默认使用fasterq-dump对其进行拆分转换
aws-http,调用aria2c从AWS Open Data Program中下载SRA数据,然后默认使用fasterq-dump对其进行拆分转换
也就是说,如果是用的ENA源 直接下载的就是fastq,如果用的SRA或其他,那就是下载SRA数据  然后kingfisher再自动调用fasterq-dump转换成fastq
上一篇 下一篇

猜你喜欢

热点阅读