ChIP-seqATAC-seqATACSeq 开放染色质分析

第6篇:重复样本的处理——IDR

2018-08-29  本文已影响22人  六六_ryx

前言

ATAC-seq/ChIP-Seq中重复样本的处理
ATAC-Seq要求必须有2次或更多次生物学重复(十分珍贵或者稀有样本除外,但必须做至少2次技术重复)。理论上重复样本的peaks应该有高度的一致性,实际情况并不完全与预期一致。如何评价重复样本的重复性的好坏?如何得到一致性的peaks?

这一节将介绍两种方法:

1. 用Bedtools进行简单的overlap合并重复样本
2. 用IDR(Irreproducibility Discovery Rate)的方法获得高重复性的peaks


1. Overlapping peaks using bedtools

如何得到两个重复样本间一致性的peaks? 一种简单粗暴的方法就是用bedtools计算peaks的overlaps。
用法:bedtools intersect [OPTIONS] -a <bed/gff/vcf/bam> -b <bed/gff/vcf/bam>

其他常用参数解释和图解如下:

bedtools intersect \
-a macs2/Nanog-rep1_peaks.narrowPeak \
-b macs2/Nanog-rep2_peaks.narrowPeak \
-wo > bedtools/Nanog-overlaps.bed

2. Irreproducibility Discovery Rate (IDR)

评估重复样本间peaks一致性的另一种方法是IDR。IDR是通过比较一对经过排序的regions/peaks 的列表,然后计算反映其重复性的值。
IDR在ENCODE和modENCODE项目中被广泛使用,也是ChIP-seq指南和标准中的一部分。

ENCODE_ATAC_pipeline
IDR的 优点:

使用IDR的注意事项:

# Call peaks
macs2 callpeak -t  sample.final.bam -n sample --shift -100 --extsize 200 --nomodel -B --SPMR -g hs --outdir Macs2_out 2> sample.macs2.log
#Sort peak by -log10(p-value)
sort -k8,8nr NAME_OF_INPUT_peaks.narrowPeak > macs/NAME_FOR_OUPUT_peaks.narrowPeak
idr --samples sample_Rep1_sorted_peaks.narrowPeak sample_Rep2_sorted_peaks.narrowPeak \
--input-file-type narrowPeak \
--rank p.value \
--output-file sample-idr \
--plot \
--log-output-file sample.idr.log

--samples:narrowPeak的输入文件(重复样本)
--input-file-type:输入文件格式包括narrowPeak,broadPeak,bed
--rank p.value:以p-value排序
--output-file: 输出文件路径
--plot:输出IDR度量值的结果

输出文件解读:
详细内容可参考:https://github.com/nboley/idr#output-file-format

输出文件包括:

  • sample-idr
  • sample-idr.log
  • sample-idr.png

(1)sample-idr
sample-idr是common peaks的结果输出文件,格式与输入文件格式类似,只是多了几列信息。前10列是标准的narrowPeak格式文件,包含重复样本整合后的peaks信息。

其他列信息如下:

wc -l *-idr 计算下common peaks的个数,接着可再计算下与总peaks的比率。
如果想看IDR<0.05的,可以通过第5列信息过滤:
awk '{if($5 >= 540) print $0}' sample-idr | wc -l
(2)sample-idr.log
log文件会给出peaks通过IDR < 0.05的比率,如下图所示


(3)sample-idr.png
png文件包括4个图

左上: Rep1 peak ranks vs Rep2 peak ranks, 没有通过特定IDR阈值的peaks显示为红色。
右上:Rep1 log10 peak scores vs Rep2 log10 peak scores,没有通过特定IDR阈值的peaks显示为红色。
下面两个图: Peak rank vs IDR scores,箱线图展示了IDR值的分布,默认情况下,IDR值的阈值为-1E-6。

参考资料:

哈佛深度NGS数据分析课程
06-Handling replicates in ChIP-Seq

上一篇下一篇

猜你喜欢

热点阅读