融合转录本的检测软件对比(NGS)
融合转录本的产生
融合转录本由融合基因(DNA水平)或可变剪切事件产生(RNA水平)。
融合转录本的检测术语
Figure 1. Figures to explain terminology..pngFigure 1. Figures to explain terminology. (A) Intact exon (IE) type and broken exon (BE) type fusion transcripts; (B) spanning read, split read and anchor length; (C) short and long insert size of DNA fragment for sequencing.
相关术语
1)Intact exon (IE) type fusion,是指融合后完整的保留了原来的外显子,未影响原来的外显子结构。如上图A中Gene A的Exon2和Gene B的Exon1融合后完整的保留了两个外显子的序列;
2)Broken exon (BE) type fusion,是指融合后没有保留原来完整的外显子序列。如上图A中 Gene A的Exon3的部分序列和Gene B的Exon2融合在一起,融合后的新基因中,来自Gene A的Exon3丢失了部分序列;
3)Breakpoint,是指两个融合基因在基因组上发生融合的位置,如上图B中Gene A(蓝色)和Gene B(绿色)融合的位点;
4)Spanning read,是指跨越融合位点分别匹配到两个融合基因的paired-end read,比如上图B中的匹配到Gene A(蓝色)和Gene B(绿色)的一对read;
5)Split read,是指恰好匹配到融合位点上的read,具体如上图B中右侧图所示;
6)Anchor length,是指跨越融合位点的read左端和右端的长度,具体如上图B中右侧图所示;
7)short insert size,一般是指双端测序paired-end sequencing中,两个read中间间隔的较短距离,一般为几百bp;
8)long insert size,一般是指双端测序mate-pair sequencing中,两个read中间间隔的较长距离,一般为几kb甚至更长;
基因融合鉴定软件的开发,一般就是基于上面提到的这些术语,采用相应的算法来设计的。
软件对生成数据分析结果的对比
- 不同软件在相同数据中检出的融合个数不同
- 测序reads越长,检出的融合数会增多
- 多数软件在测序深度达20x后,检出的融合数增幅不明显
软件对真实样本测序数据分析结果的对比
- 在乳腺癌细胞系中各软件检出的融合数量差异较大
- 在黑色素瘤和前列腺癌中,各软件检出融合数差异大,一些软件根本检测不出融合
软件分析数据耗时对比
- 对于合成数据,分析时间最长8h;测序深度越高,分析时间越长
- 对于真实样本数据,分析时间普遍很长;随着测序深度提高,分析时间显著增加
多软件连用提高融合检出准确性
image.png参考资料:
Liu S, Tsai W, Ding Y, et al. Comprehensive evaluation of fusion transcript detection algorithms and a meta-caller to combine top performing methods in paired-end RNA-seq data[J]. Nucleic Acids Research, 2016, 44(5).
https://zhuanlan.zhihu.com/p/84928559