fastqc

2022-10-20  本文已影响0人  重拾生活信心

fasqc使用

conda install fastqc

fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq

ls /*.gz | while read id; do nohup fastqc -o fastqc -t 4 $id & done

测序数据的基本信息

每个碱基的质量值
每条reads序列的质量值
每条序列的ATCG组成
每条序列N的含量
每条序列的长度分布
序列中duplication程度
K-mer信息

fastqc结果解读

查看html格式的结果报告。结果分为如下几项:
绿色的"PASS"|黄色的"WARN"|红色的"FAIL"
attention:当出现黄色时说明需要查看结果

fastqc结果

1.Basic Statistics

Basic Statistics

Basic statistics是该fastq一些基本信息:

Filename:文件名
File type: 文件类型
Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用
Total Sequences: 输入文本的reads的数量
Sequence length: 测序长度
%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。

2.Per base sequence quality

Per base sequence quality

横轴为read长度,纵轴为质量得分,Q-score = -10✖lg(error P)
柱状表示该位置所有序列的测序质量的统计,柱状(黄色)是25%~75%区间质量分布,error bar(触须)是10%~90%区间质量分布,蓝线表示平均数,红色为中位数。
一般要求所有位置的10%小于20,即最多允许该位置10%的序列低于Q20,即90%的序列的碱基质量都大于Q20,即90%的序列碱基错误率不超过99%。当任何碱基质量低于10,或者任何中位数低于25时报WARN,需注意;当任何碱基质量低于5或者任何中位数低于20报FAIL。

3.Per tile sequence quality

Per tile sequence quality

4.Per sequence quality scores

Per sequence quality scores

每条reads的quality的均值的分布
横轴表示Q值,纵轴表示每个值对应的read数目,当测序结果主要集中在高分中,证明测序质量良好
当峰值小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"

5.Per base sequence content

Per base sequence content
Per base sequence content

由于测序平台及测序长度不同,以及测序仪开始状态不稳定经常出现前后波动情况。

6. Per Sequence GC Content

GC

统计reads的平均GC含量的分布

7.Per base N content

当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率
当任一位置N的比率超过5%报WARN,超过20%报FAIL.


N

8.Sequence Length Distribution

LENGTH

reads长度的分布
理论上每次测序仪测出的read长度时一致的,但是由于建库等因素通常会导致一些小片段,reads长度不一致时报"WARN";当有长度为0的read时报“FAIL

9.Sequence duplicated levels

duplicated

10.Overrepresented sequences

如果有某个序列大量出现,就叫做over-represented。
fastqc的标准是占全部reads的0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fq数据的前200,000条reads进行统计,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch),可以给我们一些线索。
当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“


1
2

11.adapter content

adapter

横轴表示碱基位置,纵轴表示百分比
当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。
若有adapter残留,后续必须去接头。

————————————————
版权声明:本文为CSDN博主「我是菜鸟www」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_44520665/article/details/113779792

上一篇下一篇

猜你喜欢

热点阅读