circRNAceRNA

【circRNA】circRNA的鉴定

2021-11-16  本文已影响0人  jjjscuedu

通过spliced reads的mapping能发现线性RNA和环状RNA的剪切方式不同。一个是正常的5’/3’前后剪切,一个是反向的5’/3’反向剪切(Memczak et al.2013.Nature)。

====建库策略====

环状RNA 测序数据量

建库策略的选择

所以,我们实验的方案都是采用环状RNA建库的。

====鉴定方法========

CircRNA检测的基本原理是去识别反向剪切的位点(back-splice),最主要的circRNA类型是外显子来源的,当然,在内含子、间区、UTR区域、lncRNA区域以及已知转录本的反义链区域也都鉴定到circRNA,同一个位点可能形成多个circRNA,每个circRNA可能包含一个或多个外显子。CircRNA的数量从几千到几万都有可能。要研究circRNA,鉴定是第一步,也是最重要的一步,目前已经有一些pipeline,鉴定得到的circRNA是否准确和全面,取决于算法的严谨性和可靠性。

 

根据已发表的文献,环状RNA的鉴定方法分为三类:

 

1. 从头预测(abinitio)的方法:find_circ(如下图)(Memczaketal., 2013),将不能和基因组比对上读段的两端各取20bp作为锚点,再将锚点作为独立的读段往基因组上比对并寻找唯一匹配位点,如果两个锚点的比对位置在线性上方向呈反向,那么就延长锚点的读段,直至找到环状RNA的接合位置(junction),若此时两侧的序列分别为GT/AG剪接信号,则判断为潜在的环状RNA。

2. 基于RNA-seq比对工具如:Tophat-fusion(KimandSalzberg, 2011)、Mapsplice(Wanget al., 2010)、STAR(Dobinet al., 2013)、segemehl(Hoffmannet al., 2014)等,以寻找融合基因的思想检测环状RNA(如下图):先将不能比对到转录本上的读段提取出来,再根据软件预测结果找出处于同一条染色体上的融合基因,最后根据基因组注释文件中外显子的边界来判断是否为环状RNA。(这也是目前最常用的方法)

3. 专门为寻找环状RNA而设计的算法和工具(如下图)如CIRI,它考虑了经典的环状RNA以及一些短外显子成环状RNA的情况,同样以GT-AG剪接信号和外显子边界得到环状RNA。

===鉴定方法比较====

2015,NAR发表了来自于丹麦奥尔胡斯大学(Aarhus University)的研究人员(Comparison of circular RNA prediction tools)利用普通的RNA-Seq数据比较了5种常用的环状RNA预测软件(见表1)。

这些算法都依赖外部比对工具,CIRCexplorer和Mapsplice需要有注释信息,其他三种可以不依赖注释信息,但是准确性会有所下降。耗用资源方面,仅finc_circ可以用单机运算(8G RAM),CIRI耗用资源最多。

测试数据:

物种:人

数据:SRR444655和SRR444975,未用RNaseR处理,该文章中主要用于分析的数据;

SRR444974和SRR445016,使用RNaseR处理,用于验证预测方法预测得到的circRNA准确性的数据。

测序仪器:Hiseq2000,pair-end。

测序量:31.4-41.3GB/样本。

预测结果比较

首先,研究人员用5个软件分别对同一个rRNA-depleted RNA-Seq数据集进行分析。他们发现各个算法给出的环状RNA数目从1500(circRNA_finder)到4000(CIRI)不等,并且只有854个同时被5个软件发现(如下图所示)。

为了验证软件给出的circRNA是否可信,研究人员试图引入线性RNA酶消化(RNase R)的RNA-Seq数据来判断预测到的circRNA是否存在假阳性。

结果显示不同的软件给出的circRNA对RNase R的抵制效率不同,其中,CIRI表现最差,有28.03%的假阳性率(见下图)。

研究人员还关心每个软件预测出的表达量最高的100个circRNA是否真的是环状。他们分别以junction read数目对环状RNA进行排序,观察表达量高的前100个环状RNA是否被线性RNA酶消化。

同样,在CIRI的预测中高表达的环状RNA有超过半数(63%)不可靠。MapSplice和CIRCexplorer是表现最好的两款软件,分别只有9%和6%的circRNA被消化(图下图)。

通过比较现有的circRNA预测软件,我们可以看到不同的算法表现差异较大,用户在使用的时候需要小心。(从venn图也可以看出其实overlap的概率是不高的)

CIRCexplorer和MapSplice输出最可信的circRNA列表,主要的原因是这两个算法依靠已知的基因注释文件,明确的序列注释信息可以帮助他们降低假阳性率,但也限制了这两个软件不能发现de novo的环状RNA。

CircRNA_finder和find_circ也有着很高的准确性,并且这两个软件可以独立于基因注释信息运行,预测全新的环状RNA。

由于单个软件往往在一个方面存在着一定的局限性,且数据表明能够被多个算法预测到的环状RNA有着较高的可信度,因此,在实际项目中,推荐大家多使用两到三个环状RNA预测软件,进而取它们的交集。

对于任意两种方法检测的效果,文中也做了比较:


从图中我们可以看到,两种方法联用可以降低假阳性,提高准确率。

本文使用 文章同步助手 同步

上一篇 下一篇

猜你喜欢

热点阅读