3、RNAseq(3)--对RNAseq测序数据的质量控制(fa
质量汇报生成与读取
fastq质量汇报
使用命令fastqc -o <output dir> <seqfile1,seqfile2..>
来进行质量报告。
# 下载fastqc工具包
$ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
# 解压
& unzip fastqc_v0.11.8.zip
# 执行fastqc
& ~FastQC/./fastqc -f fastq -o /home/cenhui2018/QWJ/sequence_data/20191030_NGS_DATA/result /home/cenhui2018/QWJ/sequence_data/20191030_NGS_DATA/19R576_combined_R1.fastq
需要注意的是./fastqc前面的"."不可以省略
每个fastqc文件会获得一个质量分析报告,来描述此次RNA-seq的测序质量。 获取质量报告如图:
Fastqc basic informationBasic Statistics
从read水平来总览,判断测序质量。 Encoding :测序平台的版本,因为不同版本的 error p的计算方法不一样。 Total sequence:测序深度。一共测序的read数。是质量分析的主要参数。 Sequence length:测序长度。 %GC:GC碱基含量比,一般是物种特异性,比如人类是42%左右。
Perbase sequence quality
横坐标: 第1-100个测序得到的碱基 纵坐标: 测序质量评估。这里的Q=-10*lg10(error P),即20%代表1%的错误读取率,30%代表0.1%的错误读取率 箱型图: 红色线,是某个顺序下测序碱基所有测序质量的中位数。黄色块,是测序质量在25%-75%区域。蓝色线,平均数。 一般要求: 测序箱型图10%的线大于Q=20。Q20过滤法。
per tail sequence quality
横坐标:同上。 纵坐标:tail的index编号。 目的:防止测序过程中某些tail受不可控因素测序质量低。 标准:蓝色表示质量高,浅色或暖色表示质量低,后续的分析可以去除低质量tail。
per tail sequence qualityPer sequence quality scores
从read的总体测序质量分布来判定此次的测序质量,是质量分析的重要标准之一。 横坐标:表示read的测序质量Q=-10*lg10(error P)。 纵坐标:表示在该Q值下的read 的数量 标准:需要集中在高分区
Per sequence quality scoresPer base sequence content
横坐标:1-100的测序碱基位置 纵坐标:碱基百分比 标准:理论上,ATCG碱基的分布应该差别不大,即四条线应该大致平行状态。如果AT或CG差异超过10%,此项检测是危险的。一般是测序机器前几个碱基测序时候因为状态调整导致测序略有偏差,如果前几个碱基偏差较大,可以在后期将前几个碱基切掉。造成这个偏差较大的原因重要是由于测序数据中的adapter没有clean干净。所以在接下来的数据处理中需要对测序数据进行clean data的处理,下一个章节会详细介绍clean data的步骤。
Per base sequence contentSequence Length Distribution
统计read的碱基长度,本例理论上测序应该全是150bp。 横坐标:是read的碱基长度 纵坐标:是该长度下的read数量
Sequence Length DistributionPer sequence GC content
横坐标:每个read的平局GC含量占比 纵坐标:一定GC比下的read数 标准:蓝色是理论值,红色是真实值。两者接近是比较好的状态。如果有双峰,可能混有了其他物种的DNA序列。
Per sequence GC contentAdapter Content
一般测序在初步生成fastq文件时候,adapter会被去除,但是有的会没有去除或者遗漏部分adapter。所以这一步是检测RNA-seq测序过程中adapter是否去除。如果没有去除会严重影响后续的比对工作。没有去除的adapter在质量处理环节会被处理掉。
Adapter Content- multiqc质量报告
multiqc可以对几个fastqc报告文件进行总结并汇总到一个报告文件中,以更直观到防止展示。使用方法
multiqc <analysis directory>