Windows下ChIPseq/DAPseq从测序数据到Peak
写在前面
关于 ChIPseq/DAPseq 数据分析,前面有推送过两三波。早前,我也推过一个 TBtools 的 MACS2 GUI Wrapper 插件,支持在 Windows 下进行 Peak Calling 等操作。不过那个插件是「魔法隧道版」,稳定性不清。然而,前后还是有不少朋友问及是否可以支持一下,原因在何?
- 公共发表数据,往往发表论文只会提及一两个 Peak 的位置,并不会给出全面的概览;
- 基因组版本更新,peak 位置需要调整或者优化
- ....
于是,周末我实在不想干正事,就继续折腾了下。一不小心,似乎优化好了。于是,我们完全可以使用 TBtools 在 Windows下,界面化,点点鼠标(后续有时间再增加 MacOS - 这个太简单,不想整)进行 ChIPseq/DAPseq 甚至是 ATACseq 等数据分析。
整体步骤简单:
- 使用 BWA-MEM2 插件将读段回帖到基因组上
- 使用 SAMtools 插件进行排序和重复标记(去除)
- 使用 MACS2 插件进行 Peak Calling
下述,逐点演示
示例数据
使用前述给研究生上课时用的 Demo 数据
这种数据是网络下载的一组公共数据(IP效果不是非常好,但也可以,有实验验证),我截取了 1 号染色体的 Reads。
读段回帖
操作简单,用前述重测序三兄弟的第一个插件
生成两个 BAM 文件
比对结果排序
同样,简单放置文件,设置输出目录,点击 Start 就可以了。
产生两个 Sorted BAM 文件。这两个文件可以用于 IGV 等基因组浏览器输入,做深度数据探索。
标记重复
逻辑上,这一步一般是去除Duplication。但实际上,后续 MACS2 本身也会自动去除重复,所以其实也可以跳过。但是标记下挺好。
输出两个BAM文件,同时有两个BAI
Call Peaks
即可开始 Call Peaks,此处需要基因组大小
可以用 Fasta Stat 对参考基因组统计一下
拿到基因组大小(其实最好是减掉N的数目,当然其实这个影响不是非常大)
输出结果文件
Peak Motifs
更进一步,我们可以基于 R_peaks 文件,提取 abs_summit 位置附近序列,使用 meme-suite 等用 streme 子程序分析一下,就可以...得到 Motifs
写在最后
Emmm,感觉不错。似乎还是挺好用的。放到插件商店,欢迎试用~