生信分析流程生物信息学与算法医学学习笔记

RNA-Seq数据分析——原始数据质量控制(QC)

2022-02-09  本文已影响0人  生信助手

获得转录组数据(.fastq文件)后的第一步就是对原始数据的质量控制。

目的

质量控制的目的是全面查看原始数据的质量,内容包括碱基质量评估、GC含量检验、N碱基数量评估、TCGA碱基分布、k-mer数量检验等。

方法

可以于检验fastq文件质量的软件有很多,例如FastQC、fastp、multiQC等。本文主要介绍应用最多的FastQC。

FastQC是一款基于Java的软件,须在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为:Babraham Bioinformatics

安装

FastQC可以使用conda进行安装。在linux环境下运行命令conda install fastqc即可,运行结果如下图。

Fig.1

运行命令fastqc -h可检验其是否成功安装,运行结果如下图。

Fig.2

运行

# 运行命令的基本格式

# fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

# 主要是包括前面的各种选项和最后面的可以加入N个文件
# -o --outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的
# --extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包
# -t --threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快咯
# -c --contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到
# -a --adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
# -q --quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况。

使用fastqc -o #输出结果全路径 #数据存储全路径/*reads_R1.fq命令运行案例数据

运行后可获得如下结果。

Fig.3

结果解读

Basic Statistics 基本信息

Fig.4

报告第一部分既是对质量检测结果的基本信息统计,如上图所示。其中包括:

Per base sequence quality 序列测序质量统计

Fig.5

上图显示了检测fastq文件的整体碱基质量分数统计。

Per tile sequence quality 每个tail测序的情况

Fig.6

上图展示了每个tail的测序情况。

Per sequence quality scores 每条序列的测序质量统计

Fig.7

对每条序列(reads)的测序质量统计。

Per base sequence content 序列各个位置碱基比例分布

Fig.8

上图显示了A T C G在每个位置的平均分布情况。

Per sequence GC content 序列平均GC分布

Fig.9

上图展示了序列平均GC分布。

  1. GC可以作为物种特异性根据,这里出现了其他的峰有可能混入了其他物种的DNA;
  2. 目前二代测序基本都会有序列偏向性(所说的 bias),也就是某些特定区域会被反复测序,以至于高于正常水平,变相说明测序过程不够随机。这种现象会对以后的变异检测以及CNV分析造成影响。

Per base N content N碱基含量分布

Fig.10

上图N碱基含量分布

Sequence Length Distribution 序列测序长度统计

Fig.11

上图展示了检验文件中序列的长度统计。

Sequence Duplication Levels 统计序列完全一样的reads的频率

Fig.12

Overrepresented sequences 大量重复序列

Fig.13

Adapter Content 序列Adapter

Fig.14

接下来就是基于QC结果对数据进行质量控制,我们应用cutadapt来做。

上一篇下一篇

猜你喜欢

热点阅读