CHIP-Seq(6)：查看两次重复中的peak情况

2022-04-12 本文已影响0人 Li_bioinfo

1.去除.narrowPeak文件首行

sed -i '1d' WT_rep1_peaks.narrowPeak 
sed -i '1d' WT_rep2_peaks.narrowPeak

2.使用bedtools粗略估计两次重复的peak交集,重叠1bp就算有交集

bedtools intersect -a WT_rep1_peaks.narrowPeak -b WT_rep2_peaks.narrowPeak -wo > overlaps.bed

3.粗略估计后可以画韦恩图进行可视化

intervene venn -i *.narrowPeak --output venn --save-overlaps

image.png

4.对MACS3的结果文件narrowPeak根据-log10(p-value)进行排序

sort -k8,8nr WT_rep1_peaks.narrowPeak >WT_rep1_peaks.narrowPeak
sort -k8,8nr WT_rep2_peaks.narrowPeak >WT_rep2_peaks.narrowPeak

5.对生物学重复样本间的peak进行鉴定,查看两次重复的peak的IDR(不可重复率)

此次实验是具有生物学重复样本，处理前需要对重复样本的共有peak进行鉴定，用IDR的方法获得高重复性的peaks

idr --samples WT_rep1_peaks.narrowPeak WT_rep2_peaks.narrowPeak  --output-file idr_peak.narrowPeak --rank p.value --plot  --idr-threshold 0.05 --log-output-file sample.idr.log
#如果想看IDR<0.05的，可以通过第5列信息过滤：
awk '{if($5 >= 540) print $0}' idr_peak.narrowPeak | wc -l

输出文件解读：
输出文件包括：

idr_peak.narrowPeak
sample-idr.log
sample-idr.png
（1）idr_peak.narrowPeak
idr_peak.narrowPeak是common peaks的结果输出文件，格式与输入文件格式类似，只是多了几列信息。前10列是标准的narrowPeak格式文件，包含重复样本整合后的peaks信息。
第5列：包含缩放的 IDR 值
score int
如min(int(log2(-125IDR), 1000)，那么IDR=0，缩放的IDR就是1000；IDR=0.05, int(-125log2(0.05)) = 540；IDR=1.0, int(-125log2(1.0) = 0。
<meta charset="utf-8">

11列和第12列：分别是local和global IDR值
- col11: localIDR float -log10(Local IDR value)
- col12: globalIDR float -log10(Global IDR value)
  global IDR值是第5列中用于计算缩放的IDR值，类似于对p值进行多个假设校正以计算FDR；local IDR类似于属于不可重复噪声部分的峰值的后验概率。
第13、14、15、16列：是重复样本1相关的信息。
- col13: rep1_chromStart int
- col14: rep1_chromEnd int
- col15: rep1_signalValue float
- col16: rep1_summit int
第17-20列：是重复样本2相关的信息，和13-16四列信息类似。

其他列信息如下：

col1: chrom string
col2: chromStart int
col3: chromEnd int
col4: name string
col6: strand [+-.] Use '.' if no strand is assigned.
col7: signalValue float
col8: p-value float
col9: q-value float
col10: summit int

wc -l *-idr 计算下common peaks的个数，接着可再计算下与总peaks的比率。

2）sample-idr.log
log文件会给出peaks通过IDR < 0.05的比率

cat sample.idr.log 
Initial parameter values: [0.10 1.00 0.20 0.50]
Final parameter values: [1.22 1.01 0.89 0.29]
Number of reported peaks - 37/299 (12.4%)

Number of peaks passing IDR cutoff of 0.05 - 37/299 (12.4%)

(3）sample-idr.png
png文件包括4个图
左上： Rep1 peak ranks vs Rep2 peak ranks, 没有通过特定IDR阈值的peaks显示为红色。
右上：Rep1 log10 peak scores vs Rep2 log10 peak scores，没有通过特定IDR阈值的peaks显示为红色。
下面两个图： Peak rank vs IDR scores，箱线图展示了IDR值的分布，默认情况下，IDR值的阈值为-1E-6。