快速下载SRA文件及fastq-dump的小陷阱

2021-03-19  本文已影响0人  煮梦斋_bioinfo

基于aspera+ prefetch
在conda环境进行SRA文件快速下载

1.安装sra-tools: 最新版的不兼容prefetch,使用旧版本的sra-tools

conda install sra-tools=2.9.6 -y

2. 安装aspera

conda install -c hcc aspera-cli

进入NCBI SRA搜索页,使用Bioproject ID 搜索,然后点击Biosample,将列出来的所有Biosample都选中,在右上脚有个Send,选择File, Format选择 Accession List,然后将保存的text移到你需要下载文件的目录下

3. 使用Prefetch进行快速下载

prefetch --option-file SraAccList.txt

提取fastq, fastq-dump这步很容易出错, 双端测序不要直接提取

双端测序 --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
关于遇到的Rejected XXXXX READS because of filtering out non-biological READS就是因为原来是SE数据,但是用--split-3当作PE数据处理,出现的问题. 看起来好像有问题,但是对后续结果分析没有太多影响.
因此,对于一个你不知道到底是单端还是双端的SRA文件,一律用--split-3.

fastq-dump  --split-3 XXXX.sra  

双端测序 --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃

fastq-dump  --split-files XXXX.sra  

双端测序 --split-spot: 将双端测序分为两份,但是都放在同一个文件中

fastq-dump  --split-spot XXXX.sra  

单端测序

fastq-dump   XXXX.sra  

需要进行trinity de novo组装的转录组数据,否则后续在组装阶段会报错

fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRR5061852.sra

参考:https://www.jianshu.com/p/03a5c5831974
https://www.jianshu.com/p/a8d70b66794c

上一篇 下一篇

猜你喜欢

热点阅读