macs2
MACS的自述文件(2.1.2)
运行
ls ../2.mapping/*sort.bam|while read id;do macs2 callpeak -c ../2.mapping/C_Input.sort.bam -t $id -f BAM -B -g hs -n $(basename $id ".sort.bam")_sort --outdir ./;done
结果
macs2.png介绍
随着测序技术的改进,染色质免疫沉淀,然后进行高通量测序(ChIP-Seq)越来越受欢迎研究全基因组蛋白质-DNA相互作用。至解决了缺乏强大的ChIP-Seq分析方法,我们提出了一个新算法,基于模型的ChIP-Seq(MACS)分析,用于鉴定转录因子结合位点。 MACS抓住了基因组复杂性对评估其重要性的影响丰富的ChIP区域,MACS提高了空间分辨率通过组合两个测序标签的信息来结合位点位置和方向。 MACS可以很容易地用于ChIP-Seq数据单独使用,或与对照样品一起增加特异性。
安装
请检查发行版中的“安装”文件。
用法
macs2 [-h] [--version] {callpeak,filterdup,bdgpeakcall,bdgcmp,randsample,bdgdiff,bdgbroadcall}
常规峰值调用的示例:macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
宽峰调用示例:macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1
MACS中有七个主要功能作为子命令。
子命令 | 描述 |
---|---|
callpeak | 主MACS2从对齐结果调用峰值的功能。 |
bdgpeakcall | 从bedGraph输出调用峰值。 |
bdgbroadcall | 从bedGraph输出调用宽峰。 |
bdgcmp | 比较bedGraph格式的两个信号轨道。 |
bdgopt | 操作bedGraph文件的得分列。 |
cmbreps | 结合重复分数的BEDGraphs。 |
bdgdiff | 基于成对的四个bedgraph文件的差分峰值检测。 |
filterdup | 删除重复读取,然后以BED / BEDPE格式保存。 |
predictd | 从对齐结果预测d或片段大小。 |
pileup | 堆积对齐读取(单端)或片段(配对端) |
randsample | 随机选择总读数的数量/百分比。 |
refinepeak | 采取原始读取对齐,细化峰值峰值。 |
我们只在本文档中介绍“callpeak”模块。请使用'macs2 COMMAND -h'查看每个选项的详细描述模块。
调用峰值
这是MACS2中的主要功能。它可以由'macs2调用callpeak'命令。如果键入不带参数的此命令,则为将看到命令行选项的完整描述。这里我们只列出必要的选择。
基本选项
-t/--treatment FILENAME
这是MACS唯一的REQUIRED参数。文件可以是任何文件--format选项指定的受支持格式。检查 - 格式化详情。如果您有多个对齐文件,则可以指定
他们是-t A B C
。 MACS会将所有这些文件汇集在一起。
-c/--control
控件或模拟数据文件。请与-t对应的control
-n/--name 【结果】文件的前缀
实验的名称字符串。 MACS将使用此字符串NAME创建输出文件,如NAME_peaks.xls
,NAME_negative_peaks.xls
,NAME_peaks.bed
,NAME_summits.bed
,NAME_model.r
等等。所以请避免这些文件名和您的文件名之间的任何冲突现有文件。
--outdir 【输出文件夹】
MACS2会将所有输出文件保存到speficied文件夹中选项。
-f/--format FORMAT
标签文件的格式,可以是“ELAND”,“BED”,“ELANDMULTI”,“ELANDEXPORT”,“ELANDMULTIPET”(用于对端标签),“SAM”,“BAM”,“BOWTIE”,“BAMPE”或“BEDPE”。默认为“AUTO”,这将允许MACS自动决定格式。当您使用“AUTO”时也会使用
结合不同格式的文件。请注意,MACS无法检测到“BAMPE”或“BEDPE”格式带有“AUTO”,你必须隐含指定“BAMPE”和“BEDPE”的格式。
如今,最常见的格式是BED或BAM / SAM。
-g / --gsize
这是可映射的基因组大小或有效的基因组大小。定义为可以测序的基因组大小。因为在chromsomes上的重复特征,实际可映射的基因组大小将小于原始大小,约为基因组的90%或70%尺寸。对于UCSC人类hg18,建议使用默认的hs - 2.7e9。以下是有效基因组的所有预编译参数。
size:
- hs:2.7e9
- mm:1.87e9
- ce:9e7
- dm:1.2e8
-q/--qvalue
调用重要区域的qvalue(最小FDR)默认是0.05。对于广泛的标记,您可以尝试0.05作为cutoff。 Q值是使用Benjamini-Hochberg程序从p值计算。
-p/--pvalue
如果指定了-p,则MACS2将使用pvalue代替qvalue。
--broad
设置该参数,MACS将尝试合并广泛的区域, The maximum length of broad region length is 4 times of d from MACS. DEFAULT:False。
-B/--bdg
bedGraph files will be stored in current directory named
-
NAME_treat_pileup.bdg
for treatment data -
NAME_control_lambda.bdg
for local lambda values from control, -
NAME_treat_pvalue.bdg
for Poisson pvalue scores (in -log10(pvalue) form), and -
NAME_treat_qvalue.bdg
for q-value scores from Benjamini–Hochberg–Yekutieli procedure.
image.png
文件格式
BED
BED格式可以在UCSC基因组浏览器网站找到。
BED格式输入的基本列是第1列“染色体名称”,第二个“起始位置”,第三个“结束位置”,和第六列,“链”。
BAM / SAM
如果格式为BAM / SAM,请检查格式。如果是BAM文件
为配对端数据生成,MACS只保留左边的配合(5'标签。但是,当指定格式BAMPE时,MACS将使用从对齐结果中推断出读取堆积的实际片段。
BEDPE或BAMPE
格式指定'BAMPE'或'BEDPE'时将触发特殊模式。这样,MACS2将处理BAM或BED文件作为配对结束数据。而不是建立双峰分布正负链读数预测片段大小,MACS2会使用读取对的实际插入大小来构建片段积累。
BAMPE格式只是包含配对末端对齐的BAM格式信息,例如来自BWA或BOWTIE的信息。
BEDPE格式是一种简化且更灵活的BED格式只包含定义染色体名称的前三列,来自Paired-end的片段的左右位置测序。请注意,这与BEDTOOLS使用的格式不同,BEDTO的BEDTOOLS版本实际上不在标准BED中格式。