三代测序技术

【RNA-seq自学4】样品分析之质量评估MultiQC及结果分

2020-07-06  本文已影响0人  Brickvstar

multiqc可以整合其它软件的报告的软件,能将fastqc生成的多个报告整合成一个报告的软件,这样能方便的查看所有测序数据的质量。

MultiQC安装及运行

安装:

conda install multiqc

运行:

multiqc可以自动检测到文件中可以整合在一起的文件,运行也很简单。在指定目录下:

multiqc ./

输出的一个.hltm格式的文件是multiqc整合的结果

MultiQC结果分析

所有样本数据基本情况统计 fastqc的reads数 每个read各位置碱基的平均测序质量

绿色区间——质量很好,橙色区间——质量合理。红色区间——质量不好。

具有平均质量分数的reads的数量

绿色区间——质量很好;橙色区间——质量合理;红色区间——质量不好

当峰值小于27时——warning;当峰值小于20时——fail

每个read各位置碱基ATCG的比列

对所有reads的每一个位置,统计ATCG四种碱基的分布。reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。

如果ATGC在任何位置的差值大于10%——warning;差值大于20%——fail

reads的平均GC含量

正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。

偏离理论分布的reads超过15%时——warning;reads超过30%时——fail

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。

当任意位置的N的比例超过5%——warning;超过20%——fail

长度分布:151bp 每个序列的相对重复水平

当非unique的reads占总数的比例大于20%时——warning; 比例大于50%时——fail

测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示可能有bias的存在

重复序列
接头含量

>5%——warning;>10%——fail

以上各参数的汇总

以上就是质量评估MultiQC及结果分析的所有内容

参考:https://www.youtube.com/watch?v=qPbIlO_KWN0

           https://www.jianshu.com/p/85da4dcc6020

上一篇下一篇

猜你喜欢

热点阅读