HiC可视化HiC学习

HiC矩阵可视化之-HiCPlotter

2020-08-06  本文已影响0人  jjjscuedu

1. 软件安装

软件是python写的,不需要安装但是需要安装需要的库。

Numpy, Scipy, Matplotlib.

2. 输入文件要求

=====matrix格式的==============

N X N 的对称矩阵格式

如果没有header:设置-fh = 0,因为默认为1,会跳过第一个行  -ff:是跳过最后几行的

======sparse format===========(HiC-Pro默认的输出方式)

这个需要两个文件:

-tri:默认是0,如果是HiC-Pro的要设置为1

-bed:这个是显示bin ID的bed文件,HiC-Pro也会输出的

======5C data(random matrix)=============

我理解的就是矩阵是随机排列的,并没有顺序去排

可以看出,就显示了哪里有interaction,并不是都显示了

-rb:要设置为1,来激活这个格式

=======整个基因组矩阵=================

其实我觉得和1是一样的,就是这个是多个染色体的

-wg:设置成1,来激活这个功能

3. 软件运行

====显示整个染色体的情况===========

对于只有一个染色体的文件:

这是一个N X N的矩阵文件,数值代表关联强度:

python ../HiCPlotter.py -f../data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default1 -fh 0

其中:-f:输入的矩阵文件  -n:相当于R里面的main label  -r:分辨率(其实就是bin

size)-o:输出文件的前缀  -fh:和前面一样需要忽略的头文件行数  -chr:显示需要显示的染色体,但是好像必须是chr开头

如果只需要画一部分的话,加上-s -e参数,很好理解,start end

python ../HiCPlotter.py -f../data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default12 -fh 0-s 600 -e 900

===============HiCPlotter也可以call TAD并且显示出来====================

通过参数  -ptd:1来激活这一个选项( A boolean whether to plot TADs calledby an algorithm (deprecated) implemented in HiCPlotter (Default value: 0 - setto 1 for activating).

python ../HiCPlotter.py -f../data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default13 -fh 0-s 600 -e 900 -ptd 1

TAD的算法相关的一系列参数,暂时还没看懂每个参数调控的什么,需要去读下TAD相关的算法。

下面这个是添了一个: -w:8 (An integer  in bins tocalculate insulation scores  off from thediagonal  (Default value:  5 –  based on the resolution ofmatrix file, bins corresponding to 500-800Kb range is suggested)

下面是添加了参数:-pi:1 (这个是显示Insulation的track)(A boolean whether to plot insulation scores calculated for the given window and tadRange parameters )

也可以把以前的TAD加入进行对比,这个是以前TAD的bed文件:

python HiCPlotter.py -fdata/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default4 -fh 0 -s600 -e 900 -ptd 1 -pptd 1

主要是通过设置 -pptd为1,这个是用的内置的文件:(less -h 5 data/IMR90_domains_hg19.bed )估计用的别到数据的话需要改代码,或者改文件内容

===============画多个HiC数据在一起================================

多组数据输入 -f 后面以空格隔开

 python ../HiCPlotter.py -f../data/HiC/Human/GSM1081526_TEV_r1_cis.index.chr6.txt_matrix.txt../data/HiC/Human/GSM1081528_HRV_r1_cis.index.chr6.txt_matrix.txt../data/HiC/Human/GSM1081530_CTRL_r1_cis.index.chr6.txt_matrix.txt../data/HiC/Human/GSM1081533_CTCF_r2_cis.index.chr6.txt_matrix

.txt -n WT RAD21-Depleted siControlCTCF-Depleted -chr chr6 -r 40000 -fh 0 -pi 1 -o Rad21.CTCF -s 2800 -e 2950 -hmc5

-hmc:调整颜色( An integer between 0-5

(Greys(0), Reds(1), YellowToBlue(2), YellowToRed(3-default), Hot(4),BlueToRed(5)) for choosing color scale of the heatmap)

python ../HiCPlotter.py -f../data/HiC/Human/GSM1081526_TEV_r1_cis.index.chr6.txt_matrix.txt../data/HiC/Human/GSM1081528_HRV_r1_cis.index.chr6.txt_matrix.txt../data/HiC/Human/GSM1081530_CTRL_r1_cis.index.chr6.txt_matrix.txt../data/HiC/Human/GSM1081533_CTCF_r2_cis.index.chr6.txt_matrix

.txt -n WT RAD21-Depleted siControlCTCF-Depleted -chr chr6 -r 40000 -fh 0 -pi 1 -o Rad21.CTCF  -hmc 5 -sn 0.35

这个是整个chromosome的显示效果

====================含有多个染色体的数据=================================

python ../HiCPlotter.py -f ../data/HiC/Human/GSM1184323-HiCMYZ-Tcell-Rad21WT-R1.mm9.NA.L-1400000-wDiag-noSS-iced.2.matrix-n Tcell_WT -chr Genome -r 1400000 -o Tcell -hmc 5 -fh 4 -pi 1 -wg 1

从数据上可以看出,这个是包含各个染色体的bin数据。

(多条染色体的问题,现在理解它的参数是怎么设置了

-wg: 1

-chr: chrY (If inputformat is triple sparse,  -chr parameterwill be used designate to  the  end chromosome, such as –chr chr11 will plotinteractions starting from chr1 to chr11. Please use –chr chrY for whole genomeinteraction plots. Note: will skip mitochondrial interactions (chrM). )所以在这里 chr是为了确定结束的染色体的

======加入其它track的数据=====================================

在下面这个图中,加入了Chip-seq和RAP-seq的数据,都是以bed形式给出的:

python ../HiCPlotter.py -f../data/HiC/Mouse/mES.chrX -n mES -chr chrX -r 40000 -o RAP -fh 0 -hist../data/HiC/Mouse/GSE46918_pSM33-0hr-Xist_vs_Input.W10000_O7500.bedGraph,../data/HiC/Mouse/GSE46918_pSM33-1hr-Xist_vs_Input.W10000_O7500.bedGraph,../data/HiC/Mouse/GSE46918_pSM33-2hr-Xist_vs_Input.W10000_O7500.bedGraph,../data/HiC/Mouse/GSE46918_pSM33-3hr-Xist_vs_Input.W10000_O7500.bedGraph,../data/HiC/Mouse/GSE46918_pSM33-6hr-Xist_vs_Input.W10000_O7500.bedGraph,../data/HiC/Mouse/wgEncodeLicrHistoneEsb4H3k27me3ME0C57bl6StdSig.chrX.bedGraph-hl Xist_0h,Xist_1h,Xist_2h,Xist_3h,Xist_6h,H3K27me3_0h -pi

 1-ptr 0 -fhist 0,1,1,1,1,0 -hmc 5

注意:-f:后面跟的文件以空格隔开

           -hist:后面跟的文件以逗号隔开

           -fhist:用来描述曲线下面要不要填充

还可以通过-hc来调整曲线下面的颜色

python HiCPlotter.py -fdata/HiC/Human/IMR90-chr10_25kb.RAWobserved_KRnormalizedMatrix.txt -o genes -nIMR90 -chr chr17 -g genes.sorted.bed -r 25000 -s 1800 -e 1850 -histdata/HiC/Human/IMR90.Rad21.bedGraph -hl Rad21 -hm 500 -ext pdf

注意:还可以通过加入 -g来显示基因track的位置

python ../../../HiCPlotter.py -fChr01_WN_500000 Chr01_WT1_500000 Chr01_WT7_500000 -n WN_Chr01 WT1_Chr01WT7_Chr01 -chr chr1 -r 500000 -hist Chr01_WN_RNAseq.V2.txt,

WN_k27.txt,WN_k4.txt,WN_faire.txtChr01_WT1_RNAseq.V2.txt,WT1_K27.txt,WT1_K4.txt,WT1_faire.txtChr01_WT7_RNAseq.V2.txt,WT7_K27.txt,WT7_K4.txt,WT7_faire.txt -hlRNA_seq,HKme3K27,HKme3K4,FAIRE-

seq RNA_seq,HKme3K27,HKme3K4,FAIRE-seqRNA-seq,HKme3K27,HKme3K4,FAIRE-seq -o Chr01_all_test3 -fh 0 -pi 1 -ptd 1 -hmc 5

上一篇下一篇

猜你喜欢

热点阅读