快速下载SRA文件及fastq-dump的小陷阱
2021-03-19 本文已影响0人
煮梦斋_bioinfo
基于aspera+ prefetch
在conda环境进行SRA文件快速下载
1.安装sra-tools: 最新版的不兼容prefetch,使用旧版本的sra-tools
conda install sra-tools=2.9.6 -y
2. 安装aspera
conda install -c hcc aspera-cli
进入NCBI SRA搜索页,使用Bioproject ID 搜索,然后点击Biosample,将列出来的所有Biosample都选中,在右上脚有个Send,选择File, Format选择 Accession List,然后将保存的text移到你需要下载文件的目录下
3. 使用Prefetch进行快速下载
prefetch --option-file SraAccList.txt
提取fastq, fastq-dump这步很容易出错, 双端测序不要直接提取
双端测序 --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
关于遇到的Rejected XXXXX READS because of filtering out non-biological READS就是因为原来是SE数据,但是用--split-3当作PE数据处理,出现的问题. 看起来好像有问题,但是对后续结果分析没有太多影响.
因此,对于一个你不知道到底是单端还是双端的SRA文件,一律用--split-3.
fastq-dump --split-3 XXXX.sra
双端测序 --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
fastq-dump --split-files XXXX.sra
双端测序 --split-spot: 将双端测序分为两份,但是都放在同一个文件中
fastq-dump --split-spot XXXX.sra
单端测序
fastq-dump XXXX.sra
需要进行trinity de novo组装的转录组数据,否则后续在组装阶段会报错
fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRR5061852.sra
参考:https://www.jianshu.com/p/03a5c5831974
https://www.jianshu.com/p/a8d70b66794c