Chip seqCHIP-Seq处理流程CHIP分析

CHIP-Seq(6):查看两次重复中的peak情况

2022-04-12  本文已影响0人  Z_bioinfo

1.去除.narrowPeak文件首行

sed -i '1d' WT_rep1_peaks.narrowPeak 
sed -i '1d' WT_rep2_peaks.narrowPeak 

2.使用bedtools粗略估计两次重复的peak交集,重叠1bp就算有交集

bedtools intersect -a WT_rep1_peaks.narrowPeak -b WT_rep2_peaks.narrowPeak -wo > overlaps.bed

3.粗略估计后可以画韦恩图进行可视化

intervene venn -i *.narrowPeak --output venn --save-overlaps
image.png

4.对MACS3的结果文件narrowPeak根据-log10(p-value)进行排序

sort -k8,8nr WT_rep1_peaks.narrowPeak >WT_rep1_peaks.narrowPeak
sort -k8,8nr WT_rep2_peaks.narrowPeak >WT_rep2_peaks.narrowPeak

5.对生物学重复样本间的peak进行鉴定,查看两次重复的peak的IDR(不可重复率)

此次实验是具有生物学重复样本,处理前需要对重复样本的共有peak进行鉴定,用IDR的方法获得高重复性的peaks

idr --samples WT_rep1_peaks.narrowPeak WT_rep2_peaks.narrowPeak  --output-file idr_peak.narrowPeak --rank p.value --plot  --idr-threshold 0.05 --log-output-file sample.idr.log
#如果想看IDR<0.05的,可以通过第5列信息过滤:
awk '{if($5 >= 540) print $0}' idr_peak.narrowPeak | wc -l 

输出文件解读:
输出文件包括:

idr_peak.narrowPeak
sample-idr.log
sample-idr.png
(1)idr_peak.narrowPeak
idr_peak.narrowPeak是common peaks的结果输出文件,格式与输入文件格式类似,只是多了几列信息。前10列是标准的narrowPeak格式文件,包含重复样本整合后的peaks信息。
第5列:包含缩放的 IDR 值
score int
如min(int(log2(-125IDR), 1000),那么IDR=0,缩放的IDR就是1000;IDR=0.05, int(-125log2(0.05)) = 540;IDR=1.0, int(-125log2(1.0) = 0。
<meta charset="utf-8">

其他列信息如下:

wc -l *-idr 计算下common peaks的个数,接着可再计算下与总peaks的比率。

2)sample-idr.log
log文件会给出peaks通过IDR < 0.05的比率

cat sample.idr.log 
Initial parameter values: [0.10 1.00 0.20 0.50]
Final parameter values: [1.22 1.01 0.89 0.29]
Number of reported peaks - 37/299 (12.4%)

Number of peaks passing IDR cutoff of 0.05 - 37/299 (12.4%)

(3)sample-idr.png
png文件包括4个图
左上: Rep1 peak ranks vs Rep2 peak ranks, 没有通过特定IDR阈值的peaks显示为红色。
右上:Rep1 log10 peak scores vs Rep2 log10 peak scores,没有通过特定IDR阈值的peaks显示为红色。
下面两个图: Peak rank vs IDR scores,箱线图展示了IDR值的分布,默认情况下,IDR值的阈值为-1E-6。


image.png
上一篇下一篇

猜你喜欢

热点阅读