ChIP-seqATAC-seqATACSeq 开放染色质分析

第4篇:对ATAC-Seq/ChIP-seq的质量评估(一)——

2018-08-19  本文已影响12人  六六_ryx

学习目标:

ChIP-Seq质量评估

在下游分析前,最好是先对peak calling 后的ChIP-Seq数据进行质量评估。


链交叉相关(Strand cross-correlation)

链交叉相关是一个有效的评估ChIP-Seq质量的方法,它不依赖于peak calling,而是基于ChIP-Seq实验。如果ChIP-Seq实验成功,DNA富集序列标签(蛋白质相互作用的序列)会在reads的双峰富集中产生显著的聚集。
产生reads的双峰富集的原因如下:
在ChIP-Seq实验中,DNA被片段化,蛋白质结合的片段会被免疫沉淀,所以产生了有蛋白质结合的DNA片段(fragments )。
DNA的正链从5'端开始被测序(如下图红色reads),DNA负链也从5’末端被测序产生如下图所示的蓝色reads。

Nat Biotechnol. 2008 Dec; 26(12): 1351–1359
由于从DNA片段的5′末端测序,使+链reads的富集(下图中的蓝色部分)与负链reads的富集(下图红色部分)有少量的相互抵消区域。我们需要确定峰位移多少碱基数目可以在两个峰间产生最大的相关性。我们可以用交叉相关的度量值(cross-correlation metric)计算产生最大相关的位移。

交叉相关性度量值
交叉相关度量是在Watson移动k个碱基后,计算Crick链与Watson链之间的Pearson线性相关。如下面的示意图:
首先在链位移为0时,两个向量之间的Pearson相关值为0.539。


在链位移5bp,两个向量之间的Pearson相关值为0.931。

继续移动这些向量,对于每个链位移计算一个相关值。

最后,我们将有一个每个碱基对移位与皮尔森相关值的对应表。这是针对每个染色体的每一个峰计算的,然后该值乘以一个缩放因子,再对所有染色体的值相加,就可以绘交叉相关值(y轴)相对于移位值(x轴)生成的交叉相关图。
典型的交叉相关图会产生两个峰:一个富集峰与主要的片段长度(predominant fragment length)相关(高相关性),另一个与read 长度(read length)相关,这个峰也被称为虚幻峰(“phantom” peak)。

交叉相关性质量评估度量值

交叉相关谱图可以计算评估ChIP_Seq实验信噪比的度量值,并且实验设计确保fragment length准确。低信噪比和不准确的fragment length 表明ChIP-Seq实验可能有问题。
Normalized strand cross-correlation coefficent (NSC):
NSC是最大交叉相关值除以背景交叉相关的比率(所有可能的链转移的最小交叉相关值)。NSC值越大表明富集效果越好,NSC值低于1.1
表明较弱的富集,小于1表示无富集。
NSC值稍微低于1.05,有较低的信噪比或很少的峰,这肯能是生物学真实现象,比如有的因子在特定组织类型中只有很少的结合位点;也可能确实是数据质量差。
Relative strand cross-correlation coefficient (RSC):
RSC是片段长度相关值减去背景相关值除以phantom-peak相关值减去背景相关值。RSC的最小值可能是0,表示无信号;富集好的实验RSC值大于1;低于1表示质量低。

phantompeakqualtools

phantompeakqualtools 是一个用于计算ChIP-Seq数据富集和质量度量值的一个工具包。我们将使用该包来计算基于链交叉相关峰的主要插入大小(fragment length)和基于相对phantom peak的数据质量度量值。phantompeakqualtools是一个R包,依赖samtools
下载phantompeakqualtools

wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/phantompeakqualtools/ccQualityControl.v.1.1.tar.gz
tar -xzf ccQualityControl.v.1.1.tar.gz
cd phantompeakqualtools
# 查看README
less README.txt

Linux下安装

R 
install.packages("caTools", lib="~/R/library")

运行phantompeakqualtools

mkdir -p logs qual

for bam in bam_dir/sample1.final.bam bam_dir/sample2.final.bam
do 
bam2=`basename $bam .final.bam`
Rscript run_spp_nodups.R -c=$bam -savp -out=qual/${bam2}.qual > logs/${bam2}.Rout
done

参数含义:

输出文件解读
输出文件会产生一个tab分割的名为qual的文件,包含的信息如下:

参考资料

哈佛深度NGS数据分析课程
04_ChIP-Seq Quality Assessment: Cross-correlation

上一篇 下一篇

猜你喜欢

热点阅读