小教程收藏NGS生物信息学与算法

不同的peak calling软件比较

2020-01-03  本文已影响0人  生信编程日常

我一般用MACS2做peak calling,但是不知道效果是不是最好的,去搜了一下,发现14年有一篇文章用DNase-seq的数据比较了主流的几个peak caller的效果。虽然发表在Plos one上,不过还是很有参考意义(A Comparison of Peak Callers Used for DNase-Seq Data)。这篇文章比较了如下四个软件:

image

用 ENCODE中的K562, GM12878 和 HelaS3的DNase-seq的数据从以下几方面去比较这几种软件的效果:

  1. sensitivity 和 specificity

作者先从ENCODE中下载了K562, GM12878 和 HelaS3的几十套转录因子结合(TFBS)的narrow peaks的数据,用BEDOPS取了这些的并集作为比较这几种软件的"reference set"。以下是这四种数据的灵敏度(TPR)和特异度(1-FDR)的情况(其中ZINBA分为两种,一种是ZINBA_N,即输出为narrow peak模式,另一种是ZINBA_B,输出为broad peak):

image

ZINBA_N具有最小的TPR,即可能会错失更多正确的DHS,不过它同时也有最小的FDR。但是ZINBA_B的TPR和FDR都比较低,所以ZINBA_B与reference set和其他的方法差距较大。

2. 找到的peaks数量和peaks的长度以及coverage

image image image

3. 调整默认的信号阈值

image

在调整了阈值之后。F-seq的效果得到了提升,但是Hotspot与MACS表现则与之前差不多。

总体来看,对于DNase-seq的数据而言。F-seq的效果来说最好,MACS和Hotsplot也相对不错。但是ZINBA对于DNase-seq的数据无论是在特异度、灵敏度还是在计算时间上都不是很适合。

上一篇下一篇

猜你喜欢

热点阅读