CHIP-Seq(4):把bam文件转为bw文件,使用deept
BAM文件是SAM的二进制转换版,bigWig是wig或bedGraph的二进制版,存放区间的坐标轴信息和相关计分(score),主要用于在基因组浏览器上查看数据的连续密度图,可用wigToBigWig从wiggle进行转换。
为什么要用bigWig? 主要是因为BAM文件比较大,直接用于展示时对服务器要求较大。因此在GEO上仅会提供bw,即bigWig下载,便于下载和查看。得到的bw文件就可以送去IGV/Jbrowse进行可视化。
deeptools提供bamCoverage和bamCompare进行格式转换。
为了能够比较不同的样本,需要对先将基因组分成等宽分箱(bin),统计每个分箱的read数,最后得到描述性统计值。
bamCoverage对于单个样本,可以用SES方法进行标准化。
bamCompare 对于两个样本,描述性统计值可以是两个样本的比率,或是比率的log2值,或者是差值。
1.将bam文件转为bw文件
将未去重的bam 文件转为bw
mkdir bw#创建用来存放bw文件的文件夹
cat > bam2bw.sh
ls *.bam |while read id;do
bamCoverage -p 10 --normalizeUsing CPM -b $id -o ${id%%.*}.bw
done
nohup sh bam2bw.sh > bam2bw.log 2>&1 &
mv *.bw bw
mv bw ../
将去重的bam 文件转为bw
mkdir rmdup.bw#创建用来存放bw文件的文件夹
cat > bam2bw.rmdup.sh
ls *.rmdup.bam |while read id;
do
bamCoverage -p 10 --normalizeUsing CPM -b $id -o ${id%%.*}.rmdup.bw
done
nohup sh bam2bw.rmdup.sh > bam2bw.rmdup.log 2>&1 &
mv *.rmdup.bw rmdup.bw
mv rmdup.bw ../
2.载入IGV进行查看
查看bam文件和bw文件
找一个样本WT_rep1_BAF155.bam (未去重)和WT_rep1_BAF155.rmdup.rmdup.bam(去除PCR重复后)导入IGV中进行查看去除PCR重复前后的变化:可以看到这个样本没有去除重复前有很多PCR重复。因为这些片段都是经过PCR重复扩增而来的,所以是一模一样的。因为都是一条母链复制而来的。
可以看到在rmdup后,bam文件上变化挺大的,但是bw文件却相差不大。
image.png
3.查看TSS附件信号强度
1.背景知识
image.png
启动子(promoter):与RNA聚合酶结合并能起始mRNA合成的序列。
转录起始点(TSS):转录时,mRNA链第一个核苷酸相对应DNA链上的碱基,通常为一个嘌呤。
UTR(Untranslated Regions):即非翻译区,是信使RNA(mRNA)分子两端的非编码片段。
5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的末端。
2.下载TSS.bed文件:参考这篇教程,https://www.jianshu.com/p/d6cb795af22a
3.在tss前后2kb的位置批量画图
### 在tss前后2kb的位置画图
bed=/home/zhangyihui/my_data/ref_data/hg19/hg19.bed
for id in *bw;
do
file=$(basename $id )
sample=${file%%.*}
echo $sample
computeMatrix reference-point --referencePoint TSS -p 15 \
-b 2000 -a 2000 \
-R $bed \
-S $id \
--skipZeros -o matrix1_${sample}_TSS_2K.gz \
--outFileSortedRegions regions1_${sample}_TSS_2K.bed
### both plotHeatmap and plotProfile will use the output from computeMatrix
plotHeatmap -m matrix1_${sample}_TSS_2K.gz -out ${sample}_Heatmap_2K.png
plotHeatmap -m matrix1_${sample}_TSS_2K.gz -out ${sample}_Heatmap_2K.pdf --plotFileFormat pdf --dpi 720
plotProfile -m matrix1_${sample}_TSS_2K.gz -out ${sample}_Profile_2K.png
plotProfile -m matrix1_${sample}_TSS_2K.gz -out ${sample}_Profile_2K.pdf --plotFileFormat pdf --perGroup --dpi 720
done
#computeMatrix reference-point函数的参数
#--referencePoint {TSS,TES,center} The reference point for the plotting could be either the region start (TSS), the region end (TES) or the center of the region
#-b/--beforeRegionStartLength INT bp:区域前多少bp
#-a/--afterRegionStartLength INT bp:区域后多少bp
#-R/--regionsFileName File:指定bed文件
#-S/--scoreFileName File:指定bw文件
#--skipZeros:默认为False
#-o/-out/--outFileName OUTFILENAME:指定输出文件名
#--outFileSortedRegions BED file
#plotHeatmap和plotProfile函数参数
#-m/--matrixFile MATRIXFILE:指定matrix名字(computeMatrix的输出文件名)
#-o/-out/--outFileName OUTFILENAME:指定输出文件名,根据后缀自动决定图像的格式
#--plotFileFormat {"png", "eps", "pdf", "plotly","svg"}:指定输出文件格式
#--dpi DPI:指定dpi
#--perGroup:默认是画一个样本的所有区域群的图,使用这个选项后则按区域群画所有样本的情况
4.TSS附件信号强度结果解读
profile图(相当于Heatmap图中最上面的折线图单独展示)
9b92e4368b4f0694d808340f28a9ce78.png
Heatmap图
8be6af9fb2c22f51ed1377769d279718.png
拿一个热图做具体说明:
ac3c4f5cd2d4111f81205637df8d24b5.jpg
可以认为在距离TSS上游x处,所有基因normalization后的信号值的均值为0.060。