生物信息学转录组组装

Sratools (操作SRA文件)

2021-06-07  本文已影响0人  DumplingLucky

Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合。
一般常用于下载SRA文件,从SRA文件中提取fastq,sam文件,查看SRA文件信息等。

1. 安装

#conda 安装
conda install -y sra-tools

2. 下载SRA数据

下载单个文件

prefetch SRR390728

下载多个文件

prefetch cart_0.krt
#下载罗列在cart文件中的SRA数据

3 转换为fastq文件

单端

$ fastq-dump SRR029945.sra -O ./ (结果生成:SRR029945.fastq)
$ fastq-dump --fasta SRR029945.sra -O ./ (结果生成:SRR029945.fasta)

双端

$ fastq-dump SRR2090164.sra --split-3 -O ./ (结果生成:SRR2090164_1.fastq,SRR2090164_2.fastq)
$ fastq-dump SRR2090164.sra --split-3 --gzip -O ./ (结果生成:SRR2090164_1.fastq.gz, SRR2090164_2.fastq.gz)

注意:NCBI其实已经更新了一个多线程抽取工具fasterq-dump,可以在sratools的bin目录里找到,但是文档没有写,没有特殊需求的话,可以考虑直接用新工具替代。

这个fasterq-dumpfastq-dump相比,用法如下:

fasterq-dump --split-3 SRR893046 -O fastq

3. pfastq-dump 让转换速度提升数倍

  1. 下载
$ git clone [https://github.com/inutano/pfastq-dump](https://github.com/inutano/pfastq-dump)
$ cd pfastq-dump/bin/
$ chmod a+x pfastq-dump
$ cp pfastq-dump /Software/sratoolkit.2.8.2-centos_linux64/bin
  1. 格式转换
    单端测序:
$ pfastq-dump SRR029945.sra -O . -t 8 (8线程)

双端测序:

$ pfastq-dump -s SRR2090164.sra --split-3 --gzip -O ./ -t 8 (8线程)

4. Fastq格式解读

FASTQ格式文件是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息,每个read由四行描述,如下:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG 
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT 
+ 
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是对应序列的测序质量。


第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测序平台的碱基质量值用Qphred表示,则有下列关系:
ASCII - 33 = Qphred = -10log10(e)
此公式可说明,质量值越大测序错误率(e)越低,准确性越高
参考:
https://www.jianshu.com/p/5a6e593f4cbb
https://cloud.tencent.com/developer/article/1772411
https://www.jianshu.com/p/4779b7103ae1
SRA Toolkit
上一篇 下一篇

猜你喜欢

热点阅读