生物信息学习ChIP-seq生物信息学与算法

ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工

2019-05-22  本文已影响39人  JeremyL
ngs.plot

必需参数

参数 参数释义 参数示例
-G 基因组名 hg18,hg19,mm9,mm10; 详情参见: SupportedGenomes
-R 需要展示的基因组区域 tss, tes, genebody, exon, cgi, enhancer, dhs or bed(custom regions)
-C Bam 文件或配置文件 配置文件详情参见:: HowToUseConfiguration
-O 输出结果名 输出文件前缀

可选参数:

参数 参数释义 参数示例
-E 基因列表或bed文件自定义作图区域 如果不提供列表,那么整个基因组都会被绘图;transcript ID,gene ID 和symbol都适用,可以混着用,一行一个;使用bed文件时,与-R bed连用。
-T 图标题 图的标题

覆盖度生成

Argument Explanation Accepted value and notes
-F 为数据库表或画图类型的选择提供的进一步信息 protein_coding,K562,rnaseq (顺序不重要) 表示 coding genes in K562 cell line drawn in rnaseq mode. 更多信息见: UseFurtherInfo;-F [gene_type][,sub_region][,cell_line or tissue][,exon_type][,rnaseq or chipseq]
-D 基因数据库 默认使用 ensembl, refseq.
-L 两侧区域大小 以bp为单位. 默认情况: -R=tss, tes, genebody, -L=2000; -R=exon, cgi, -L=500; when -R=*.bed, -L=1000.
-N 侧翼区域因子 当使用时,两侧区域大小等于interval 乘以侧翼区域因子。这样做的好处就是允许侧翼区域大小可以动态变化,使得做出来的图更加自然。
-RB 粗暴统计过滤 设定极值占总体的比例,将会从数据的两端删除. 默认设置为 0 (0%). 设置为 0.05 表示从总体中移除 5% 极值.
-S 随机抽样率 (0, 1]. 从全基因组或者gene list 中抽取一定比例的样本;对于想快速查看结果有很大的帮助。
-P 调用CPU数量 设置0调用本地所有CPU
-AL 标准化覆盖度向量的算法 覆盖度向量可以时任意长度.但是必须归一化为等长,以便取平均值和作图。.
spline(default) 先进行曲线拟合,然后以相等的间距取值。
bin 整个向量被分割成固定数量的大小相等的bin,并计算每个bin的平均值。
-CS 一次加载基因的块多少。 在计算覆盖度时,控制一次加载的基因数目,加载的少消耗内存小花费时间多。
-MQ 设置比对质量阈值过滤reads 默认 20. 20 意味着错配率为 1%.
-FL 建库插入片段大小用于计算物理覆盖度 默认150. ngs.plot 使用物理覆盖度代替reads丰度. 插入片段大小因该是建库插入片段的平均长度
-SS 特定链的覆盖度计算 both(default), same, opposite.
-IN 是否是大间隔 0 或1. 默认情况下, exon 和 cgi 是小 interval; genebody 和*.bed 是大 interval. X轴一般分成5部分;对于小的interval,中间一部分作为interval 区域,两侧各2个侧翼区域;对于大的interval,中间三部分作为interval 区域,两侧各1个侧翼区域。
-FI 是否输出图 0 或1. 设置1表示不输出图,;后续可以利用replot.r处理输出数据生成图。

ngs.plot.r 和 replot.r 共有的参数

通用参数

Argument Explanation Accepted value and notes
-FS 字体大小 默认为 12 pt.

富集轮廓图参数

Argument Explanation Accepted value and notes
-WD 图的宽度 Default is 8 in.
-HG 图的高度 Default is 7 in.
-SE 布尔值,是否展示标准误差 0 或1. 默认情况下,标准误差将呈现为每个曲线周围的阴影区域。
-MW 移动窗口宽度以平滑轮廓图 默认1没有移动. window 大小的单位就是一个数据点. ngs.plot图中,x轴为100各数据点.
-H 阴影区不透明度 建议值:[0,0.5]。将在每个曲线下添加半透明阴影。
-YAS Y轴大小 默认自动调整(auto),也可以通过min_val,max_val设定
-LEG 是否画图列 默认为1,展示图列, 0 不展示图列.
-BOX 是否给图画上边框 默认为1,画出边框, 0 不画边框.
-VLN 是否画竖线 是否画垂直线在位点(e.g., TSS 和 TES);默认为1,画线, 0 不画线.
-XYL 是否绘制X轴和y轴标签? 默认为1,画出X轴和y轴, 0 不画X轴和y轴.
-LWD 线宽度 默认3 pt.

热图参数

Argument Explanation Accepted value and notes
-GO 基因排序算法
total(default) 第一个轮廓图中总体富集程度
hc 层次聚类
max 第一个轮廓图中的peak 值大小。如果表观基因组标记倾向于产生更尖锐的峰,这种选择就更有意义。
prod 同一区域内所有富集度的乘积。
diff 第一个轮廓图和第二个轮廓图的差异
km K-means 聚类. 默认聚 5 类.
none 没有使用排序算法。使用基因列表中提供的顺序。
-LOW 基于排序的标准化中read count阈值 默认 10.
-KNC K-means 聚类的数目 默认为 5.
-MIT K-means 最大迭代次数 默认20.
-NRS s设定K-means 随机开始的数 k -均值倾向于局部最优。反复重启它可能有助于找到更好的聚类方法。默认值是30。
-RR 折合率 控制热图的高度。值越小,热图就越高。默认值是30。
-SC 热图的颜色比例 设置数据值映射到颜色的范围。一定范围任何值都将映射到与相同颜色范围。
local(default) 每一个热图都有一个自己颜色范围
region 同样region的所有的热图用同样的颜色范围
global 在当前的图中使用相同的颜色范围
min_val,max_val 自定义颜色范围;0,5表示最小值是0,最大值是5
-FC 过滤分数 默认 0.02(2%). 最大最小的2%数都丢弃
-CO 热图颜色 对于一对bam文件,使用color-tri(neg_color:[neu_color]:pos_color). 注意: 必需使用 R 的颜色, 例如 darkgreen, yellow and blue2.
-CD 热图的颜色分布 默认为 0.6. 必需是正数. 注意: 数值越低,负数端的颜色间距越大.

参考:

ProgramArguments101



ChIP-Seq 数据挖掘系列文章目录:
ChIP-Seq数据挖掘系列-1:Motif 分析(1)-HOMER 安装
ChIP-Seq数据挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步骤
ChIP-Seq数据挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq结果在基因组区域中寻找富集的Motifs
ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换
ChIP-Seq数据挖掘系列-5.1: ngs.plot 可视化ChIP-Seq 数据
ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工具ngs.plot.r 和 replot.r 参数详解

上一篇下一篇

猜你喜欢

热点阅读