最全的RNA-seq工具比较文章,以及RNACocktail分析
Sahraeian, Sayed Mohammad Ebrahim, et al. "Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis."Nature communications8.1 (2017): 59.
这是17年7月5日published online的文章,总结了关于RNA-seq分析的众多工具,其中早先的tophat2+cufflinks和新出的hisat2+stringtie的比较是一个侧重点,就目前RNA-seq分析来看,许多公司和实验室已经采用了hisat2+stringtie流程来分析各自的数据,结果较好,而且节约了很多分析时间。
本篇文章知识面广,涉及到mapping、assemblying、quantification、differential analysis、gene fusion,此外,也对RNA 变异分析、RNA编辑和融合基因检测等工具进行了比较评估,对于像我这一个生信菜鸟来说简直是福音啊,建议大家认真阅读下这篇文章。
具体利用15个样品,39个分析工具,120种结合方式,490次分析的结果。针对各个工具,作者都描述了其性能表现,做出了庞大的比较分析。并在次基础上,作者构建了一个综合性的RNA-seq analysis protocol,即RNACocktail,囊括了这些工具,免费提供给他人下载使用,以帮助研究人员更好地进行生物学分析,具体流程如下图:
原图清晰,上传上来就模糊了,如果要看清晰图片可参照原文献!
通过上面的流程图,我们就可以知道其复杂程度,针对每一步几乎都有可选工具!好了,答题上这些工具上面都有,下面来看看文献都讲了些啥!
RNA-seq分析追求3个目标:准确、廉价和节约时间,这也是生物信息软件的目标!
下面来看看这些工具:
一Alignment
RNA-seq的reads mapping要考虑剪切比对,用到了tophat2、star和Hisat2,这3个目前使用最频繁的比对工具。下面来看下各自特点:,
Hisat2:预测junction reads数量最少但比例最高,其素对最快,比tophat快2.5倍,比star快100倍。(据我测试,但比tophat确实快好多,比对率也最高,star我没测过)。
Star:unique mapped reads比例最高,且其对在PE(paired ends)比对中两条reads进行相同处理(即不会出现仅的单端比对的情况)。其比对质量较低,产生更多的soft-clipped and mismatched bases,所以其对soft-clipped和mismathch较多的情况其比对率可能较高,个人推测比如刚组装或者组装不好的的参考基因组,或者主梁较差的注释文件,或者研究物种和参考物种不一致的情况。
二transcriptome assembly
比对之后后就是转录本组装,有Cufflinks和StringTie这两个工具,IDP和ISO-seq。(以前有个scripture,好像很少人用)。作者还讲了一种通过short reads检测isoform的方法,IDP(IsoformDetection and Prediction)。为了评估IDP,作者采用了来自长reads比对的GMAP和STARlong,以及上面谈到的3中工具的短reads比对。还有Iso-Seq,即PacBio默认的long reads组装工具。
在基因水平,Cufflinks在准确性和敏感性方面比Stringtie高,IDP有最高的敏感性和准确性。Iso-Seq最不敏感,其准确性介于IDP和段序列组装工具之间。
在转录本水平,StringTie在超过5个转录本的基因检测数量比Cufflinks高出50倍。Cufflinks和StringTie报道了很多单外显子的转录本,但是其中大部分是假阳性的。StringTie比cufflinks多预测出50~200%的转录本,其在准确性和敏感性方面也比Cufflinks高11%和25%,而StringTie结果中每个基因的转录本数量分布和GENCODE最为相似,说明Stringtie在转录本组装方面比Cufflinks明显优秀。
而IDP在样本间表现不一致,其也不报道但单外显子转录本。多外显子转录本方面和cufflinks相当,其比其它工具的检测准确性超过20%,但是其敏感度比Stingtie低,比Cufflinks高。
Iso-Seq的结果反应大部分GENCODE注释的转录本没有检测到,其对新转录本预测结果较好,而在转录本准确性方面比其它软件较差。
但是Stringtie在速度方面性能优越,比Cufflinks和IDP分别快40和60倍,综合评价当时最好的。
此外前面降到Star比对最不严格,所以用其结果组装得到转录本最多,但是假阳性也最高,应当慎用!
三De novo transcript assembly
没有参考基因组或者转录组的时候就需要从头组装了,文章讲到了Trinity、Oases和SOAPdenovo-Trans这3个工具。
Trinity倾向于预测更多的基因和转录本,例如许多转录本被分割开来。
Oases产生最高的N10到N50值,即在长isoform检测方面有优势,其也能够检测低表达基因。
SOAPdenovo-Trans倾向于检测高表达转录本,其在存储和计算资源方面也消耗最低。
此外,SOAPdenovo-Trans和Trinity在内含子水平检测有较高的准确性和敏感性,但又说了一句For intron-chain level accuracy,Oases and Trinity outperform SOAPdenovo-Trans。(没这个intron level和intron-chain level有什么区别?知道的请帮忙在评论区解答下吧!)
四 Isoform detection using long reads 和Long-read error correction
人(GENCODE V19)的转录本的平均长度是783bp,NGS测序结果几乎不能达到这么长,只有PacBio的检测结果才可以,文章测试的结果平均reads长度在1164bp,覆盖了64%的转录本,也就是说可以无需组装直接通过Iso-Seq得到大部分转录本的结果。针对所有测序结果来说,其转录本重构也简单了好多。(目前来看,PacBio为首的三代测序逐渐被大家接受)。
但是缺点就是long reads错误率高,目前已有LSC、proovread、LoRDEC和PBcR这4个工具可进行错误率校正,但是文献中只分析了 LSC和LoRDEC这两种工具。
LSC:比LoRDEC慢100倍左右,
LoRDEC:准确性和速度都较高,其是较优秀的错误校正工具。
long reads可以直接检测大部分转录本,也可以用GMAP26和STARlong对这些reads进行比对,然后用IDP进行转录本鉴定,
从两种方法来看:仅用IDP鉴定道德转录本在10000bp一下分布广泛,而通过ISO-seq鉴定的转录本长度在1000-4000bp。
IDP检测用到的两个比对软件比较:GMAP26比STARlong多比对28%的reads。但是后者速度快68倍。
五 Transcript quantification
基于比对进行定量就会产生了两种情况:
只检测known reads:可以通过直接根据比对bam/sam文件定量,入RSEM,eXpress(其实还有HTseq也用得多,文献没讲到)
如果要对包括novel transcript在内的所有transcript进行鉴定和定量,则需要先组装然后定量,可以用Cufflinks和StringTie套装工具进行拼接和定量。
还有一种是Alignment-free transcript quantification:
特点:无需通过比对直接进行的定量,只需要提供reads和reference就可以得到表达量,原理是找到reads的转录本来源(我理解的是可能无需比对那么精确,确定在哪个转录本上就行)。计算和存储资源消耗低,工具有Sailfish、Salmon、quasi-mapping和kallisto。
将比对定量和无比对定量的多种方法
得到的定量结果进行相关性分析,如下图所示:
总体来看,前一步最相似的方法定量较为类似,Hisat2在作为short reads比对工具的时候其定量最为一致,也就是说后面的定量工具影响最小。
总的来说:Alignment-free 定量很节约时间和计算资源,Hisat2结合StringTie最为有效。但其速度仍比Alignment-free 方法慢一个数量级。
六 差异表达(英文的差异表达竟然不是合法字符,不懂现在的新浪在搞什么)
RNA-seq最为重要的应该是进行差异分析了,可使用的工具也是最多,包括:
count-based方法:DESeq2,edgeR,limma,
assembly-based方法:cuffdiff,Ballgown
alignment-free-based方法:sleuth(可结合来自kallisto,Sailfish,Salmon的结果)
(还有RPKM-based的方法:如DEGseq)
这次测试仅仅用到SEQC数据库4个样本1001个基因(这是因为这1001个基因有qRT-PCR的定量结果,准确性高)。
结论是:DESeq2比其它工具分析的结果都好,sleuth、edgeR和limma次之,Cuffdiff and Ballgown都比count-based的方法差。而Salmon-SMEM、Salmon-Aln、kallisto和eXpress这些结合于count-based差异分析的方法最不准确。所以基于比对的count-based方法的结果最好,此外cuffdiff比Ballgown慢4-5倍(这也是很多流程不用cuffdiff的原因之一)。
(前面的是RNA-seq基础分析,也就是说不管是哪家公司的RNA-seq一般都会分析这些内容,下面这些内容可能就不一定分析了)
七 RNA-editing detection
其与基因上的序列变异不同,RNA编辑是在mRNA水平发生的序列变异包括序列的插入缺失和置换,从而改变编码序列。RNA编辑可以通过以下几种方法:
一:根据得到的序列与基因组比对,根据对应位置的序列不同来鉴定RNA编辑,目前也最为普遍。
二:GIREMI用一种SNV之间等位连锁方法来鉴定单个RNA-seq数据的RNA编辑
三:通过多个RNA-seq数据集来来鉴定RNA编辑,在多个样本发生的序列变异才被当作RNA编辑,这样增加了可信度
四:就是把所有样品的数据集都放到一起,然后通过高频的变异确定为RNA编辑
文章用不同的比对工具,并结合GATK来鉴定RNA编辑,对上面4中方法进行比较。结果如下图所示:
总的来看,A-G最多,T-C次之,其它相对较少。
genome-aware、multiple-samples和pooled-samples这三种方法比GIREMI方法在检测T-C的时候比例较高。TopHat结合GIREMI在高水平的RNA编辑方面比其它技术好,而RASER在不同的RNA编辑水平都比GIREMI 和genome-aware好。FDR可用来衡量RNA-编辑检测的准确性,STAR和HISAT2比对鉴定的RNA编辑FDR相对较低,但是预测除了更多的A-G,RASER的敏感度高,也就是说在输入的可靠SNV中检测的比例高。
在速度上genome-aware比GIREMI快10倍左右,而multiple-samples和pooled-samples的方法却比较消耗计算资源。
八 融合基因检测
融合基因,即由于染色体易位或者反向剪切使得两个基因的全部或部分串联起来构成的新基因。在研究各种癌症类型的起因和发展的时候融合基因显得很重要。目前的检测工具有JAFFA、STAR-Fusion、TopHat-Fusion、FusionCatcher和SOAPfuse等,以及long reads方法IDP-fusion和Iso-Seq,通过对已经证实的71个癌症细胞系的检测表明:
short-reads-based方法:FusionCatcher最为敏感却准确,SOAPfuse也不错,STAR-Fusion最快(比其它方法快10倍),FusionCatcher和TopHat Fusions的计算资源要求最大。
long-read-based方法:DP fusion最准确,
九Run-time analysis
也就是运行时间分析,Alignment-free方法比基于比对最快的方法StringTie-HISAT2还要快10倍以上(这里应该是指的从clean reads到差异结果)。而Cufflinks-TopHat和long-read-based又比StringTie-HISAT2慢一个数量级。
十A high-accuracy pipeline
通过以上评估,文章作者总结并编写了一个RNA-seq流程,即RNACocktail。作者利用自己的流程对Cufflinks-TopHat、StringTie-HISAT2和Salmon-SMEM进行了差异基因比较和差异基因富集比较。StringTie-HISAT2和Salmon-SMEM结果较好,其top过表达基因富集到了breast cancer cell line相关的基因集中。而Cufflinks-
TopHat没有基因富集或者富集的基因与样品特性无关。
此外,Cocktail采用工具很广发,其比Galaxy和Grape等流程综合性更高。
最后,作者通过使用RNAcocktail流程研究得出:the choice of tools and computational
approaches had a large impact on the accuracy and runtime of the analysis(一般可以理解)。所以,对于如何选择工具进行RNA-seq分析还是要看具体的条件和目的,以及对结果的预测。
文献地址:https://www.nature.com/articles/s41467-017-00050-4
RNAcocktail流程地址:http://bioinform.github.io/rnacocktail/