Windows下ChIPseq/DAPseq从测序数据到Peak
写在前面
关于 ChIPseq/DAPseq 数据分析,前面有推送过两三波。早前,我也推过一个 TBtools 的 MACS2 GUI Wrapper 插件,支持在 Windows 下进行 Peak Calling 等操作。不过那个插件是「魔法隧道版」,稳定性不清。然而,前后还是有不少朋友问及是否可以支持一下,原因在何?
- 公共发表数据,往往发表论文只会提及一两个 Peak 的位置,并不会给出全面的概览;
- 基因组版本更新,peak 位置需要调整或者优化
- ....
于是,周末我实在不想干正事,就继续折腾了下。一不小心,似乎优化好了。于是,我们完全可以使用 TBtools 在 Windows下,界面化,点点鼠标(后续有时间再增加 MacOS - 这个太简单,不想整)进行 ChIPseq/DAPseq 甚至是 ATACseq 等数据分析。
整体步骤简单:
- 使用 BWA-MEM2 插件将读段回帖到基因组上
- 使用 SAMtools 插件进行排序和重复标记(去除)
- 使用 MACS2 插件进行 Peak Calling
下述,逐点演示
示例数据
使用前述给研究生上课时用的 Demo 数据
![](https://img.haomeiwen.com/i10518391/2a170ffb6dd81fab.png)
这种数据是网络下载的一组公共数据(IP效果不是非常好,但也可以,有实验验证),我截取了 1 号染色体的 Reads。
读段回帖
操作简单,用前述重测序三兄弟的第一个插件
![](https://img.haomeiwen.com/i10518391/3b73e24af97462cb.png)
生成两个 BAM 文件
![](https://img.haomeiwen.com/i10518391/8066971390366a66.png)
比对结果排序
同样,简单放置文件,设置输出目录,点击 Start 就可以了。
![](https://img.haomeiwen.com/i10518391/35080c278ee067a9.png)
产生两个 Sorted BAM 文件。这两个文件可以用于 IGV 等基因组浏览器输入,做深度数据探索。
![](https://img.haomeiwen.com/i10518391/01466a5506cdc490.png)
标记重复
逻辑上,这一步一般是去除Duplication。但实际上,后续 MACS2 本身也会自动去除重复,所以其实也可以跳过。但是标记下挺好。
![](https://img.haomeiwen.com/i10518391/20eea77d7c48fbd6.png)
输出两个BAM文件,同时有两个BAI
![](https://img.haomeiwen.com/i10518391/2dd9c3a107039e4f.png)
Call Peaks
即可开始 Call Peaks,此处需要基因组大小
![](https://img.haomeiwen.com/i10518391/0650c430ff1d967d.png)
可以用 Fasta Stat 对参考基因组统计一下
![](https://img.haomeiwen.com/i10518391/06453db1eed360d7.png)
拿到基因组大小(其实最好是减掉N的数目,当然其实这个影响不是非常大)
![](https://img.haomeiwen.com/i10518391/8ac673be2c6e42d5.png)
输出结果文件
![](https://img.haomeiwen.com/i10518391/236a3ed4b185ac74.png)
Peak Motifs
更进一步,我们可以基于 R_peaks 文件,提取 abs_summit 位置附近序列,使用 meme-suite 等用 streme 子程序分析一下,就可以...得到 Motifs
![](https://img.haomeiwen.com/i10518391/f837829c8ade43de.png)
写在最后
Emmm,感觉不错。似乎还是挺好用的。放到插件商店,欢迎试用~