小教程收藏

了解一下call peaks的MACS

2020-06-12  本文已影响0人  刘小泽

刘小泽写于2020.6.12
来自:https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html
看到好资料顺手整理一下

去重复

Modeling the shift size

一个真实的结合位点处的reads分布应该是:双峰(bimodal or paired peaks)。MACS就会利用这个双峰进行建模,估计shift size,来定位预测的结合位点

如何建模?

shift size:

MACS会随机抽样1000个高质量的peaks,将正负链的reads区分开来,并按照reads的中心点进行映射,得到两种peaks,峰越高说明这里的reads越多。最后,两种peaks的中心点之间的距离定义为d(表示estimated fragment length)。之后MACS将所有reads向3‘端移动d/2的距离,得到最可能的蛋白-DNA结合区域

Scaling libraries

如果input和treat样本之间的测序深度不同,MACS会对文库进行矫正,让input向treat靠拢。结果就是:total control read count to be the same as the total ChIP read count

中间计算过程还需要考虑

Estimation of false discovery rate

A region is considered to have a significant tag enrichment if the p-value < 10e-5

MACS 1.4版本设定FDR是根据经验

MACS2:多重比较 Benjamini-Hochberg correction

MACS2的功能

这里重点关注核心功能——callpeak

输入参数

输出参数

Shifting model参数

Peak calling参数:

举个例子:

macs2 callpeak -t bowtie2/H1hesc_Nanog_Rep1_aln.bam \
    -c bowtie2/H1hesc_Input_Rep1_aln.bam \
    -f BAM -g 1.3e+8 \
    -n Nanog-rep1 \
    --outdir macs2

整个运行过程会打印很多日志,所以可以使用重定向将日志保存

输出的文件

一般一个样本会得到6个文件:

了解下文件格式:

统计一下每个样本中有多少peaks:

wc -l *.narrowPeak

如果要看shift size的图:

同时还会生成一个cross-correlation plot(Pearson相关性图)

Rscript Nanog-rep1_model.r

欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!
上一篇 下一篇

猜你喜欢

热点阅读