基因组分析Hi-CChIP-seq

ChromHMM: 染色体状态的分类

2020-10-25  本文已影响0人  生信云笔记

前言

  时间过的真快,一转眼距离上一次发帖已经过去两周的时间,不知道这两周时间自己都忙了些啥,时间就没有了。真的是越穷越忙,越忙越穷啊!

  上周测试了一个软件——ChromHMM,这是一款用来做染色体状态分类的软件,由于是用java写的软件,所以免于安装直接下载即可使用,用起来也是相当的简单。今天来跟大家分享一下它的用法。做染色体状态分类需要用到组蛋白修饰的信息,目前,已经有不少已知功能的组蛋白修饰,如H3k4me3修饰主要发生在基因组的启动子区,而H3k27me3修饰除了发生在启动区外也主要集中在基因富集区域,H3K4me3、H3k27me3修饰的主要生物学功能分别是活化和阻遏基因的表达,还有很多其他已知功能的组蛋白修饰这里就不介绍那么多了。在说软件的用法之前,先解释一下什么是染色体状态分类?所谓的染色体状态分类,也就是基于一些组蛋白修饰标记用机器学习的方法将染色体片段分成不同的状态,假定这些状态具有某些生物学的意义。

  下面来具体说一下如何使用ChromHMM做染色体状态的分类,分析之前需要准备好三种输入文件,一是染色体大小文件(chrlen.txt),二是组蛋白标记的样本表格(design_sheet.txt),三是样本比对生成的bam文件或者reads覆盖的bed文件。
先直观的看一下输入文件的格式,如下所示:
chrlen.txt格式类似如下,第一列是染色体名称,第二列是染色体长度:

chr1    248956422
chr2    242193529
chr3    198295559
chr4    190214555
chr5    181538259
chr6    170805979
chr7    159345973
chr8    145138636
chr9    138394717
chr10   133797422

design_sheet.txt格式类似如下,第一列是细胞系名称,第二列是组蛋白名称,第三列是bam文件的名字:

IMR90   H3K4me1 GSM521895_sort_uniq.bam
IMR90   H3K4me3 GSM521901_sort_uniq.bam
IMR90   H3K9me3 GSM469974_sort_uniq.bam
IMR90   H3K27ac GSM469966_sort_uniq.bam
IMR90   H3K27me3        GSM469968_sort_uniq.bam
IMR90   H3K36me3        GSM521890_sort_uniq.bam
IMR90   H3K9ac  GSM469973_sort_uniq.bam
IMR90   H3K4ac  GSM521893_sort_uniq.bam
IMR90   H3K14ac GSM521881_sort_uniq.bam
IMR90   H3K18ac GSM521884_sort_uniq.bam
IMR90   H3K23ac GSM521885_sort_uniq.bam
IMR90   H3K56ac GSM521902_sort_uniq.bam
IMR90   H4K5ac  GSM469975_sort_uniq.bam
IMR90   H2AK5ac GSM521866_sort_uniq.bam
IMR90   H2BK120ac       GSM521869_sort_uniq.bam
IMR90   H2BK12ac        GSM521871_sort_uniq.bam
IMR90   H2BK20ac        GSM521879_sort_uniq.bam
IMR90   H3K4me2 GSM521899_sort_uniq.bam
IMR90   H3K79me1        GSM521904_sort_uniq.bam

bam、bed格式这里就不展示了,准备好输入文件下面就可以开始分析了,首先是将比对文件转化为二进制的信号文件,bam、bed这两种格式的文件分别使用软件的BinarizeBam、BinarizeBed子命令,这里仅展示BinarizeBam的用法,BinarizeBed与此类似,命令如下:

java -mx4000M -jar ChromHMM.jar BinarizeBam -gzip -b 200 -f 0 -g 0 -p 0.0001 chrlen.txt design_sheet.txt bamfile binarization

chrlen.txt:染色体大小文件,
design_sheet.txt:组蛋白标记的样本表格
bamfile:存放组蛋白bam文件的目录,所有用到的组蛋白bam文件都放在这个目录下面,
binarization:输出目录,用来存放转换后的二进制的信号文件。
其他的参数大家可以看软件说明书。

  转换完成后,接着就是利用信号文件,使用LearnModel子命令来完成染色体的分类及富集分析,命令行代码如下:

java -mx4000M -jar ChromHMM.jar LearnModel -gzip -d 0.001 -color 0,0,255 -p 5 -i chrhmm binarization learnmodel

chrhmm:设置输出文件的前缀,
binarization:上一步得到的二进制信号文件的存放目录,
learnmodel:输出目录,用来存放分类结果。

分类完成后,结果目录如下:

state18/learnmodel
├── emissions_18_chrhmm.png                        #染色体状态的分类热图,png格式
├── emissions_18_chrhmm.svg                        #染色体状态的分类热图,svg格式
├── emissions_18_chrhmm.txt                        #染色体状态分类热图的作图数据
├── IMR90_18_chrhmm_dense.bed.gz                   #可在IGV浏览器中展示分类结果的bed文件,所有状态在同一个track里面
├── IMR90_18_chrhmm_expanded.bed.gz                #可在IGV浏览器中展示分类结果的bed文件,不同状态在不同的track里面
├── IMR90_18_chrhmm_overlap.png                    #染色体状态的富集热图,png格式
├── IMR90_18_chrhmm_overlap.svg                    #染色体状态的富集热图,svg格式
├── IMR90_18_chrhmm_overlap.txt                    #染色体状态富集热图的作图数据
├── IMR90_18_chrhmm_RefSeqTES_neighborhood.png     #染色体状态在TES区域的富集热图,png格式
├── IMR90_18_chrhmm_RefSeqTES_neighborhood.svg     #染色体状态在TES区域的富集热图,svg格式
├── IMR90_18_chrhmm_RefSeqTES_neighborhood.txt     #染色体状态在TES区域的富集热图的作图数据
├── IMR90_18_chrhmm_RefSeqTSS_neighborhood.png     #染色体状态在TSS区域的富集热图,png格式
├── IMR90_18_chrhmm_RefSeqTSS_neighborhood.svg     #染色体状态在TSS区域的富集热图,svg格式
├── IMR90_18_chrhmm_RefSeqTSS_neighborhood.txt     #染色体状态在TSS区域的富集热图的作图数据
├── IMR90_18_chrhmm_segments.bed.gz                #染色体状体的分类结果的bed文件
├── model_18_chrhmm.txt                            #包含learnmodel子命令使用参数的文件
├── transitions_18_chrhmm.png                      #状态转化的热图,png格式
├── transitions_18_chrhmm.svg                      #状态转化的热图,svg格式
├── transitions_18_chrhmm.txt                      #状态转化热图的作图数据
└── webpage_18_chrhmm.html                         #染色体状态分类的网页报告

染色体分类的热图:

  至此,染色体分类就完成了,分析还是挺很简单的吧!剩下的任务就是对结果的解读了,解读的过程可能相对来说不是那么容易,解读的过程需要依赖于对组蛋白的功能背景、注释及富集位置(也就是上面的三个热图),然后再结合自身所研究的目的来解读出具有生物学意义的结果。

最后

  今天就分享到这里吧,最后附上软件的下载链接,方便大家下载:http://compbio.mit.edu/ChromHMM/,更详细的参数解释大家也可以看软件的说明书。

上一篇下一篇

猜你喜欢

热点阅读