RNAsq

【RNA-seq自学03】样品分析之质量评估FastQC及结果分

2020-07-04  本文已影响0人  Brickvstar

  本次实战我采用的是B站某教程上的拟南芥数据,教程链接:https://www.bilibili.com/video/BV1KJ411p7WN?p=1

构建项目目录,并导入文件

构建工作目录

00ref中的gtf注释文件信息和fasta参考基因文件,可以用wget命令在数据库中下载  拟南芥注释信息链接

另外要检测数据的完整性,即md5值。

    给自己的文件生成md5值:【md5sum *gz > md5.txt】

    比对已有的md5值:【md5sum -c md5.txt】程序显示的结果为OK

FastQC安装及运行

安装:

conda install fastqc

运行:

fastqc sample1 R1. fastq. gz #处理一个文件

-

fastqc sample1 R1. fastq. gz  sample1 R2. fastq. gz sample2 R1. fastq. gz sample2 R2. fastq. gz #批量处理多个文件

fastqc sample * gz  #批量处理多个文件

运行完产生的. html文件可以在网页中打开,即生成的报告

推荐:可以用winscp软件,直接把文件拖动到桌面上。

FastQC报告:

碱基质量分布

绿色表示质量好,黄色一般,红色较差柱状是25%~75%区间质量分布,error bar是10%~90%区间质量分布,蓝线表示平均数。

tail测序质量

蓝色表示测序质量很高,暖色表示测序质量不高(此图是练习数据生成的图,长度短,质量高)

所有序列的质量分布

纵轴表示每个值对应的read数目,当测序结果为一个单一的高峰,表明测序质量良

碱基成分

四种颜色的线分别表示不同类型的碱基成分含量。图中read1-19均为不合格的结果,四条线平行则表明质量结果较好

GC含量分布

蓝色为程序根据经验分布给出的理论值,红色是真实值。若出现红线双峰,表明样品不纯,混入了其他DNA。

N含量分布

当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。

序列长度分布

一般在切割RNA时的长度都在150碱基左右。

大量重复的序列

图中标红的部分“TruSeq Adapter”作为接头在trimmomatic中会用到。

接头含量

通过的结果是不含接头。若有adapter残留,后续必须去接头【trimmomatic】。

以上就是质量评估FastQC及结果分析的全部内容。

参考:

https://blog.csdn.net/gateswell/article/details/78858579

上一篇下一篇

猜你喜欢

热点阅读