「生信」HiCPlotter参数及使用介绍
2019-06-03 本文已影响92人
bioinfo_boy
目录
- 软件概述
- 功能介绍
- 参数详解
- 相关链接
软件概述
- HiCPlotter是python编写的, 用于不同数据类型互作矩阵可视化的工具
- 需要python2.7的环境
- 需要的库:
- numpy(1.9.0, 1.9.2, 1.10.4)
- scipy(0.14.0, 0.15.1, 0.17.0)
- matplotlib(1.3.1, 1.4.3, 1.5.1)
- 可通过conda安装, 但如果同时使用Hic-Pro的话, 需要创建一个新的2.7环境
功能介绍
作图种类
- 全基因组及个别染色体不同分辨率互作热图
- 特定区段互作热图
- 对于同一参考基因组, 不同数据在特定区段的互作热图比较
- TAD (根据bing ren提供的算法计算人类基因组TAD较可靠, 对于计算物种TAD结构, 编者推荐了其他TAD预测软件)
- 基因在特定区段的分布图
- 各种plot
- Histogram
- Bar
- Arcs
- Tiles
- Epilogos
- 高亮标注特定区段
- 热图中特定位置的标注
- 取对数合并比较两个互作热图
文件类型
- Hi-C/5C matrix data (标准格式和Triplet sparse format都可以)
- BedGraph
- Peak File
- Gene File
我的使用例子
- 代码
python ~/home/02_software/HiCPlotter_test/HiCPlotter.py -f Pdan/iced/25000/Pdan_25000_iced.matrix -o Pdan_chr1_part -r 25000 -tri 1 -bed Pdan/raw/25000/Pdan_25000_ord.bed -n Chr1_part -chr Chr1
-
输出
互作热图
参数详解
参数 | 描述 |
---|---|
必须参数 | --- |
-f | 单个矩阵文件或列表(空格分开) |
-n | 矩阵的名称标签, 多个矩阵时名称用空格分开 |
-o | 输出文件的名称 |
-chr | 可视化染色体的名称, 当显示全基因组互作时, 标准matrix文件需要写Genome
|
-r | 可视化矩阵的分辨率, 默认为100Kb |
文件参数 | --- |
-cn | 是否替换某些标准矩阵中的NaN为0, 默认为1 |
-fh | 过滤标准矩阵的开头行, 默认为1(一行) |
-ff | 过滤标准矩阵的底部行, 默认为0(零行) |
-tri | 用于提交hic-pro的输出文件 |
-bed | 用于提交hic-pro的输出文件 |
-rb | 用于提交5C的随机分辨率文件 |
可选参数 | --- |
-s | 用于局部可视化的start bin编号 |
-n | 用于局部可视化的end bin编号 |
-da | 是否启用黑色背景, 默认为0 |
-ext | 输出文件的格式, 默认为png |
-dpi | 矩阵中每一英寸的像素点上限, 默认为200, 高分辨率应该设置更高的像素 |
-mm | 热图热值上限 |
-hmc | 热图的颜色, Greys(0), Reds(1), YellowToBlue(2), YellowToRed(3-default), Hot(4), BlueToRed(5) |
-ptr | 是否将热图按对角线旋转, 默认为0 |
-trh | 调整旋转热图的高度, 默认为(end-start)/5 |
-v | 生成.log文件 |
-sn | 小数, 用于清楚noise data |
各种plot | --- |
01-TAD | 各种结构域都可成图, 不推荐使用, 软件给出了专业的TAD calling的软件 |
-ptd | TAD鉴别, 使用的是软件自己的算法, 默认为0 |
-pcd | 是否使用特定的TAD区分的文件, 默认为0 |
-pcdf | -pcd为1时, 提交特定的区分文件.bed |
-dc | 16进制颜色编号 |
-pdb | (-ptdb)将三角形换位矩形表示 |
-pptd | 2012 rebing 提出的TAD区分算法, 只能用于hg19和mm小鼠, 默认为0 |
-ptdo | -pptd为1时, 此参数设置为0表示小鼠, 1表示人 |
-w | TAD边界区分的严格程度, 越大越宽松, 5适用于500-800Kb的分辨率 |
-pi | 关于边界的形象曲线, 默认为0 |
-tr | 计算边界的最小值, 8适用于800-2000Kb的分辨率 |
02-Genes | 表示各种基因的直观位置 |
-g | 关于基因起始位置排序的.bed文件 |
-gl | gene图的名称标签 |
03-Histograms | 常用来描述4C,Chip-seq,DNase-seq,RAP-seq等结果 |
-hist | .bedgraph文件, 对于同一矩阵的文件用逗号分隔, 不同矩阵的文件用空格分隔 |
-hl | 名称标签, 分隔方法同上 |
-hm | y轴最大值 |
-fhist | 线与x轴包围区域是否填充灰色, 默认为0 |
-hc | 线与x轴包围区域填充颜色的16进制编号 |
-si | 是否将两个图重叠在一起, 默认为0 |
-spi | 是否删除右侧和上侧边框, 默认为0 |
04-Bars | 常用来记录基因表达水平 |
-b | .bedgraph文件, 对于同一矩阵的文件用逗号分隔, 不同矩阵的文件用空格分隔 |
-bl | 名称标签, 分隔方法同上 |
-bm | y轴最大值 |
-bc | 填充颜色的16进制编号, 如果.bedgraph定义了颜色编号, 则此值会被忽略 |
05-Tiles | 用于描绘基因组中不相关联的位点, 如染色质位点, 增强子位置, 结构变化等 |
-t | .bedgraph文件, 对于同一矩阵的文件用逗号分隔, 不同矩阵的文件用空格分隔 |
-tl | 名称标签, 分隔方法同上 |
-tc | 填充颜色的16进制编号, 如果.bedgraph定义了颜色编号, 则此值会被忽略 |
-tt | 是否在每个标记上显示名称, 默认为0 |
06-Arcs | 用于表示两个位点的连通性, 可以反映3C和ChiA-Pet的结果 |
-a | .bedgraph文件, 对于同一矩阵的文件用逗号分隔, 不同矩阵的文件用空格分隔 |
-al | 名称标签, 分隔方法同上 |
-ac | 填充颜色的16进制编号, 如果.bedgraph定义了颜色编号, 则此值会被忽略 |
07-Epilogos | 不同细胞类型中分析染色质位点的模型 |
-ep | epilogos文件 |
-im | 如果文件中估算的染色质位点模型, 则选1, 默认为0 |
全基因组互作图 | --- |
01 | 对于标准矩阵 |
-wg | 参数选择1, -chr 填Genome 即为全基因组的互作 |
02 | 对于hic-pro输出矩阵 |
-wg | 参数选择1, -chr 填最后一条染色体, 如Chr17 即为全基因组的互作 |
矩阵注释 | --- |
-high | 是否启用高亮展示, 默认为0 |
-hf | 当-high为1是, 提供高亮部分的.bed文件 |
-peak | 在矩阵上标记特殊位置(如loop), .bedgraph文件(至少6列), 对于同一矩阵的文件用逗号分隔, 不同矩阵的文件用空格分隔 |
矩阵比较 | --- |
-c | 是否比较两个矩阵, 默认为0 |
-p | 是否两两比较多个矩阵, 默认为0 |
-ce | 用逗号分隔两个整数, 用于区分两个矩阵的颜色, 例如: -ce -2,2 |
参考链接
- README.md
- HiCPlotterManual.pdf
- Akdemir K C , Chin L . HiCPlotter integrates genomic data with interaction matrices[J]. Genome Biology, 2015, 16(1):198. doi: 10.1186/s13059-015-0767-1
- 编者推荐的TAD calling软件
Dixon et, al. Directionality-index approach:
http://bioinformatics-renlab.ucsd.edu/collaborations/sid/domaincall_software.zip
Crane et,al Insulation-score approach:
https://github.com/blajoie/crane-nature-2015
TADbit:
https://github.com/3DGenomes/tadbit
Armatus:
http://www.cs.cmu.edu/~ckingsf/software/armatus/
Matryoshka:
https://github.com/COMBINE-lab/matryoshka
TADtree:
http://compbio.cs.brown.edu/projects/tadtree/
最后
hicplotter可视化还是挺强大的, 在使用过程中遇到什么问题会在这篇笔记下补充