ChIP-seqATAC-seqATACSeq 开放染色质分析

第5篇:对ATAC-Seq/ChIP-seq的质量评估(二)——

2018-08-10  本文已影响22人  六六_ryx

1. 学习目标

NOTE:这里给出的评估指标只是反映数据质量的好坏,符合阈值的并不意味着实验是成功的,不符合阈值的也不一定意味着失败。

2.常见质量评估指标的介绍

SSD值是对富集效果的评估。SSD值依赖于全基因组的pile-up信号强度,对真实的ChIP富集和干扰的强信号区域都很敏感。SSD值越大表明富集越好。

“It provides a measure of pileup across the genome and is computed by looking at the standard deviation of signal pile-up along the genome normalised to the total number of reads. ”

FRiP表示的是peaks中的reads与总reads的比例。它是另一个反映样本富集效果或IP好坏的评价指标。可以理解为是“信噪比”即文库中结合位点片段占背景reads的比例。一个典型质量好的TF富集FRiP值约5%或者更高,polII的FRiP值约为30%或者更高,也有一些质量好的数据FRiP值<1%(如RNAPIII)

REGI是对peaks在不同基因组特征位点分布的统计。

过滤人工造成的高信号区域非常重要,如ENCIDE和modENCODE提供的DAC Blacklisted Regions track。这些区域经常在特定的重复序列处出现,如着丝粒、端粒、卫星重复序列等,通过简单的比对过滤是不能去除的。来自blacklisted regions的信号会造成call peak 和片段长度评估的混淆。
RiBL值可以表示背景信号或input的信号水平,与input sample的SSD值以及input和ChIP sample的读长覆盖值相关。这些区域通常是基因组的0.5%,或者更高的比例(10%)。


3. ChIPQC: quality metrics report

ChIPQC是一个Bioconductor包,输入文件包括BAM和peak文件,可以自动计算一些质量评估值,并产生质量报告。

准备数据

下载安装ChIPQC

source("http://bioconductor.org/biocLite.R")
biocLite("ChIPQC")

Running ChIPQC

ChIPQC只需要三步就可以完成质量评估和报告生成。

## Load libraries
library(ChIPQC)
## Load sample data
samples <- read.csv('meta/samplesheet_chr12.csv')
View(samples)
## Create ChIPQC object
chipObj <- ChIPQC(samples, annotation="hg19") 
## Create ChIPQC report
ChIPQCreport(chipObj, reportName="ChIP QC report: Nanog and Pou5f1", reportFolder="ChIPQCreport")

ChIPQC报告解读

ChIPQC生成的结果包含一个网页报告和报告中含有的所有图片。
网页报告有三部分:QC Summary ;QC Results;QC files and versions

(1)QC Summary - Overview of results
Table 1

QC summary包含sampleSheet里填写的样本的基本信息Tissue,Factor,Condition,Replicate。另外还有上面提到的质量评估的常用指标SSD、RiP%和RiBL值。越高的SSD值表明富集效果越好,Pou5f1样本(2.6,3)有较高的SSD值,RiBL值不是很高,FRiP的比例在5%附近或者更高,除了Pou5f1-rep2。

(2)QC Results - Full QC results and figures
  • Total Dup%-Percentage of all mapped reads which are marked as duplicates.
  • Pass MapQ Filter%-Percentage of all mapped reads whichpass MapQ quality filter
  • Pass MapQ Filter and Dup%-Percentage of all reads which pass MapQ filter and are marked asduplicates.

Figure 1展现了reads在blacklists中的比例,

Figure 1. Barplot of the percentage of reads in blacklists

Figure 2是用基因组注释呈现了reads在基因组特征位置如启动子的分布。这幅图里显示在启动子区域富集最明显。

Figure 2 Heatmap of log2 enrichment of reads in genomic features

4. 实验偏差:ChIP-seq数据质量低的来源

参考资料:

哈佛深度NGS数据分析课程
05-ChIP-Seq Quality Assessment

上一篇 下一篇

猜你喜欢

热点阅读