Linux下通过Kingfisher下载RNA-seq数据

2022-07-04 本文已影响0人队长的生物实验室

一般在进行公共测序数据挖掘的时候，需要从公共数据库中（SRA、ENA、DDBJ等）下载自己所需的测序数据。下载数据时，往往会遇到网速限制或下载链接不可用等因素，这里介绍Kingfisher工具，自动下载，方便又省力。本文主要复现代码的可行性。

kingfisher安装

#创建虚拟环境及安装依赖包
conda create -c conda-forge -c bioconda -n kingfisher pigz python extern curl sra-tools pandas requests aria2
#激活虚拟环境
conda activate kingfisher#使用conda activate不能成功激活环境时可以尝试使用：source activate kingfisher
#安装bird_tool_utils
pip install bird_tool_utils'>='0.2.17
#下载kingfisher
git clone https://github.com/wwood/kingfisher-download
#切换到bin文件夹下
cd kingfisher-download/bin
#配置环境变量
export PATH=$PWD:$PATH
#调出帮助文档，如果出现则安装成功
kingfisher -h

kingfisher -h

下载数据

kingfisher get -r SRR7699520 -m ena-ftp
#-r Run number(s) to download/extract e.g. ERR1739691
#-p BioProject IDs number(s) to download/extract from e.g. PRJNA621514 or SRP260223
# -m ena-ascp、ena-ftp、prefetch、aws-http、aws-cp、gcp-cp
# --download-threads 线程数
数据下载源介绍（-m参数）：
ena-ascp,调用Aspera从ENA中下载.fastq.gz数据
ena-ftp，调用curl从ENA中下载.fastq.gz数据
prefetch，调用prefetch从NCBI SRA数据库中下载SRA数据，然后默认使用fasterq-dump对其进行拆分转换
aws-http，调用aria2c从AWS Open Data Program中下载SRA数据，然后默认使用fasterq-dump对其进行拆分转换
也就是说，如果是用的ENA源 直接下载的就是fastq，如果用的SRA或其他，那就是下载SRA数据  然后kingfisher再自动调用fasterq-dump转换成fastq

Linux下通过Kingfisher下载RNA-seq数据

猜你喜欢

热点阅读