DNA-Seq分析之QC介绍
DNA-seq的分析主要包括以下几个部分:
1.Quality control(QC)
2.Mapping
3.SNP and small INDEL calling
4.Structural variation calling
5.Copy number variation calling
6.Variants function annotation
首先先对qc结果做介绍。
对数据做QC比较常用的工具是FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/),其中QC的统计结果比较多,包含以下信息:
1.Basic Statistics
2.Per base sequence quality
3.Per tile sequence quality
4.Per sequence quality scores
5.Per base sequence content
6.Per sequence GC content
7.Per base N content
8.Sequence Length Distribution
9.Sequence Duplication Levels
10.Overrepresented sequences
11.Adapter Content
Basic Statistics是对整个数据做了统计,包括文件名称,文件类型,encoding,所有的序列数,被标记为质量差的序列数,序列长度以及GC含量。其中绿色✅表示通过了此项统计。
imagePer base sequence quality表示每个base上测序质量的统计,横坐标表示序列的长度从1到N,纵坐标表示质量的分布图。
imagePer tile sequence quality表示每个tile的测序质量,横坐标表示序列的长度位置从1到N
imagePer sequence quality scores表示序列的质量得分分布,横坐标表示质量得分,纵坐标表示序列的数目,下图最高点表示质量是37的序列大概有180000条。
imagePer base sequence content表示序列的每个位置上A,G,C,T各个碱基所占的比例。横坐标是序列从1到N对应的位置,纵坐标表示百分比。
imagePer sequence GC content表示序列上GC含量。横坐标是GC含量的百分比,从0到100,纵坐标表示序列的数目。
imagePer base N content表示序列上从1到N的位置上的N所占的比例
imageSequence length distribution表示序列的长度分布
imageSequence duplication levels表示序列重复的水平
imageAdapter content表示adapter的比例,不同颜色表示不同平台的adapter
image下一篇会介绍mapping,有任何问题欢迎在留言区留言。
欢迎关注微信公众号:生物信息学习