随性科研民工生信小白

DNA-Seq分析之QC介绍

2019-07-13  本文已影响114人  gtt儿_生物信息学习

DNA-seq的分析主要包括以下几个部分:

1.Quality control(QC)

2.Mapping

3.SNP and small INDEL calling

4.Structural variation calling

5.Copy number variation calling

6.Variants function annotation

首先先对qc结果做介绍。

对数据做QC比较常用的工具是FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/),其中QC的统计结果比较多,包含以下信息:

1.Basic Statistics

2.Per base sequence quality

3.Per tile sequence quality

4.Per sequence quality scores

5.Per base sequence content

6.Per sequence GC content

7.Per base N content

8.Sequence Length Distribution

9.Sequence Duplication Levels

10.Overrepresented sequences

11.Adapter Content

Basic Statistics是对整个数据做了统计,包括文件名称,文件类型,encoding,所有的序列数,被标记为质量差的序列数,序列长度以及GC含量。其中绿色✅表示通过了此项统计。

image

Per base sequence quality表示每个base上测序质量的统计,横坐标表示序列的长度从1到N,纵坐标表示质量的分布图。

image

Per tile sequence quality表示每个tile的测序质量,横坐标表示序列的长度位置从1到N

image

Per sequence quality scores表示序列的质量得分分布,横坐标表示质量得分,纵坐标表示序列的数目,下图最高点表示质量是37的序列大概有180000条。

image

Per base sequence content表示序列的每个位置上A,G,C,T各个碱基所占的比例。横坐标是序列从1到N对应的位置,纵坐标表示百分比。

image

Per sequence GC content表示序列上GC含量。横坐标是GC含量的百分比,从0到100,纵坐标表示序列的数目。

image

Per base N content表示序列上从1到N的位置上的N所占的比例

image

Sequence length distribution表示序列的长度分布

image

Sequence duplication levels表示序列重复的水平

image

Adapter content表示adapter的比例,不同颜色表示不同平台的adapter

image

下一篇会介绍mapping,有任何问题欢迎在留言区留言。
欢迎关注微信公众号:生物信息学习

上一篇 下一篇

猜你喜欢

热点阅读