ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工
2019-05-22 本文已影响39人
JeremyL
ngs.plot
必需参数
参数 | 参数释义 | 参数示例 |
---|---|---|
-G | 基因组名 | hg18,hg19,mm9,mm10; 详情参见: SupportedGenomes |
-R | 需要展示的基因组区域 | tss, tes, genebody, exon, cgi, enhancer, dhs or bed(custom regions) |
-C | Bam 文件或配置文件 | 配置文件详情参见:: HowToUseConfiguration |
-O | 输出结果名 | 输出文件前缀 |
可选参数:
参数 | 参数释义 | 参数示例 |
---|---|---|
-E | 基因列表或bed文件自定义作图区域 | 如果不提供列表,那么整个基因组都会被绘图;transcript ID,gene ID 和symbol都适用,可以混着用,一行一个;使用bed文件时,与-R bed连用。 |
-T | 图标题 | 图的标题 |
覆盖度生成
Argument | Explanation | Accepted value and notes |
---|---|---|
-F | 为数据库表或画图类型的选择提供的进一步信息 | protein_coding,K562,rnaseq (顺序不重要) 表示 coding genes in K562 cell line drawn in rnaseq mode. 更多信息见: UseFurtherInfo;-F [gene_type][,sub_region][,cell_line or tissue][,exon_type][,rnaseq or chipseq] |
-D | 基因数据库 | 默认使用 ensembl, refseq. |
-L | 两侧区域大小 | 以bp为单位. 默认情况: -R=tss, tes, genebody , -L=2000 ; -R=exon, cgi , -L=500 ; when -R=*.bed , -L=1000 . |
-N | 侧翼区域因子 | 当使用时,两侧区域大小等于interval 乘以侧翼区域因子。这样做的好处就是允许侧翼区域大小可以动态变化,使得做出来的图更加自然。 |
-RB | 粗暴统计过滤 | 设定极值占总体的比例,将会从数据的两端删除. 默认设置为 0 (0%). 设置为 0.05 表示从总体中移除 5% 极值. |
-S | 随机抽样率 | (0, 1]. 从全基因组或者gene list 中抽取一定比例的样本;对于想快速查看结果有很大的帮助。 |
-P | 调用CPU数量 | 设置0调用本地所有CPU |
-AL | 标准化覆盖度向量的算法 | 覆盖度向量可以时任意长度.但是必须归一化为等长,以便取平均值和作图。. |
spline(default) | 先进行曲线拟合,然后以相等的间距取值。 | |
bin | 整个向量被分割成固定数量的大小相等的bin,并计算每个bin的平均值。 | |
-CS | 一次加载基因的块多少。 | 在计算覆盖度时,控制一次加载的基因数目,加载的少消耗内存小花费时间多。 |
-MQ | 设置比对质量阈值过滤reads | 默认 20. 20 意味着错配率为 1%. |
-FL | 建库插入片段大小用于计算物理覆盖度 | 默认150. ngs.plot 使用物理覆盖度代替reads丰度. 插入片段大小因该是建库插入片段的平均长度 |
-SS | 特定链的覆盖度计算 | both(default), same, opposite. |
-IN | 是否是大间隔 | 0 或1. 默认情况下, exon 和 cgi 是小 interval; genebody 和* .bed 是大 interval. X轴一般分成5部分;对于小的interval,中间一部分作为interval 区域,两侧各2个侧翼区域;对于大的interval,中间三部分作为interval 区域,两侧各1个侧翼区域。 |
-FI | 是否输出图 | 0 或1. 设置1表示不输出图,;后续可以利用replot.r处理输出数据生成图。 |
ngs.plot.r 和 replot.r 共有的参数
通用参数
Argument | Explanation | Accepted value and notes |
---|---|---|
-FS | 字体大小 | 默认为 12 pt. |
富集轮廓图参数
Argument | Explanation | Accepted value and notes |
---|---|---|
-WD | 图的宽度 | Default is 8 in. |
-HG | 图的高度 | Default is 7 in. |
-SE | 布尔值,是否展示标准误差 | 0 或1. 默认情况下,标准误差将呈现为每个曲线周围的阴影区域。 |
-MW | 移动窗口宽度以平滑轮廓图 | 默认1没有移动. window 大小的单位就是一个数据点. ngs.plot图中,x轴为100各数据点. |
-H | 阴影区不透明度 | 建议值:[0,0.5]。将在每个曲线下添加半透明阴影。 |
-YAS | Y轴大小 | 默认自动调整(auto),也可以通过min_val,max_val设定 |
-LEG | 是否画图列 | 默认为1,展示图列, 0 不展示图列. |
-BOX | 是否给图画上边框 | 默认为1,画出边框, 0 不画边框. |
-VLN | 是否画竖线 | 是否画垂直线在位点(e.g., TSS 和 TES);默认为1,画线, 0 不画线. |
-XYL | 是否绘制X轴和y轴标签? | 默认为1,画出X轴和y轴, 0 不画X轴和y轴. |
-LWD | 线宽度 | 默认3 pt. |
热图参数
Argument | Explanation | Accepted value and notes |
---|---|---|
-GO | 基因排序算法 | |
total(default) | 第一个轮廓图中总体富集程度 | |
hc | 层次聚类 | |
max | 第一个轮廓图中的peak 值大小。如果表观基因组标记倾向于产生更尖锐的峰,这种选择就更有意义。 | |
prod | 同一区域内所有富集度的乘积。 | |
diff | 第一个轮廓图和第二个轮廓图的差异 | |
km | K-means 聚类. 默认聚 5 类. | |
none | 没有使用排序算法。使用基因列表中提供的顺序。 | |
-LOW | 基于排序的标准化中read count阈值 | 默认 10. |
-KNC | K-means 聚类的数目 | 默认为 5. |
-MIT | K-means 最大迭代次数 | 默认20. |
-NRS | s设定K-means 随机开始的数 | k -均值倾向于局部最优。反复重启它可能有助于找到更好的聚类方法。默认值是30。 |
-RR | 折合率 | 控制热图的高度。值越小,热图就越高。默认值是30。 |
-SC | 热图的颜色比例 | 设置数据值映射到颜色的范围。一定范围任何值都将映射到与相同颜色范围。 |
local(default) | 每一个热图都有一个自己颜色范围 | |
region | 同样region的所有的热图用同样的颜色范围 | |
global | 在当前的图中使用相同的颜色范围 | |
min_val,max_val | 自定义颜色范围;0,5表示最小值是0,最大值是5 | |
-FC | 过滤分数 | 默认 0.02(2%). 最大最小的2%数都丢弃 |
-CO | 热图颜色 | 对于一对bam文件,使用color-tri(neg_color:[neu_color]:pos_color). 注意: 必需使用 R 的颜色, 例如 darkgreen, yellow and blue2. |
-CD | 热图的颜色分布 | 默认为 0.6. 必需是正数. 注意: 数值越低,负数端的颜色间距越大. |
参考:
ChIP-Seq 数据挖掘系列文章目录:
ChIP-Seq数据挖掘系列-1:Motif 分析(1)-HOMER 安装
ChIP-Seq数据挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步骤
ChIP-Seq数据挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq结果在基因组区域中寻找富集的Motifs
ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换
ChIP-Seq数据挖掘系列-5.1: ngs.plot 可视化ChIP-Seq 数据
ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工具ngs.plot.r 和 replot.r 参数详解