RNA-Seq差异表达分析-扩展综述及新工具
RNA-Seq差异表达分析-扩展综述及新工具
理解不同生物在不同条件下表型差异的关键是确定不同条件下差异表达基因(DEGs)。转录组的高通量测序(RNA-Seq)是研究当前问题的一个主要策略。因此,利用RNA-Seq数据进行差异分析的方法和软件在近些年得到了长远的发展。但是并没有人考虑最合适的pipeline用来做RNA-Seq数据的差异分析。
最近来自巴西联邦大学(Federal University of Technology, Brazil)的研究人员对于当前六种mapping方法和九种差异表达分析的方法进行了综述。用来评估各种方法是基于RNA-Seq数据,qRT-PCR数据做为参考(gold standard)。同时他们也开发了一款软件可以用来展示论文中所有的分析。
结果显示,mapping的方法只有很小的影响在最后结果的分析上面。考虑到实验所采用的数据模型,利用 limma+voom,NOIseq和DESeq2的三种分析方法得到的结果更加一致(consensus)。这种结果暗示综合多种分析方法产生的差异表达基因更加准确。
image.png论文分析的流程图
文献来源: Costa-Silva J, Domingues D, Lopes FM (2017) RNA-Seq differential expression analysis: An extended review and a software tool. PLoS ONE 12(12): e0190152.
RNA-seq流程各阶段软件的最优选择
RNA-seq如今已经成了最受宠爱的生信分析了,而如今琳琅满目的各种生信软件摆在具有新时代选择困难症的同学们眼前我们又犯难了。我们该选择哪套流程哪种工具进行分析呢?我选的这种工具会不会不准确最后下游验证不出来那可就坏大事了。今天我们就来聊聊关于如何选择最优的RNA-seq软件做分析,让我们自信做生信人。
一、mapping比对软件的选择
1.比对软件有tophat、bwa、bowtie2、killisto、salmon和STAR等等。但通过实验(作者用的都是默认的参数)得到的结论:比对软件对RNA-seq最后找DEG的影响非常的小,主要影响是有关于剪切比对及所耗计算机资源和比对速度。
image.png
table.1 mapper软件的差别
当然还有当下高效的比对软件HISAT2也是支持spliced read aligner的
而且速度比STAR快1.2倍比Tophat快50倍。
image.png
fig.1 不同比对软件和差异表达分析软件之间的比较以qRT-PCR为金标准
2.可以看出不同比对软件对最后的DEG影响不大,造成DEG有较大差异的软件主要是差异表达分析软件
二、差异表达分析软件的选择
由上图fig.1可以看出不同的差异分析软件得到最终的DEG有较大的差别,所以我们应该非常非常慎重的去选择适合我们的差异表达分析软件。这次比较了较常用的几种差异分析软件baySeq、DESeq、edgeR、DESeq2、EBSeq、limma+voom、NOIseq、SAMseq和sleuth。
image.png
table 2 识别DEG的软件
为了减少误差,其测试的输入计数矩阵都由Tophat和HTSeq软件生成,所有软件都用默认参数。
下图为各个软件应用的统计学方法:
image.pngfig.2 不同差异分析软件使用的统计学方法
以qRT-PCR为金标准来评判差异分析结果,NOIseq和baySeq与qRT-PCR的结果最为一致,且受mapper软件的影响较小。
下表列出了差异分析软件的综合性能评估:
image.png
table 3 差异分析软件的综合评估
加粗的行为综合性能较好的前三名,分别为NOIseq、limma+voom和DESeq2。这三种软件只有大约3.8%DEGs没有被qRT-PCR识别。当样本为小样本(两个重复)时,DESeq能够获得更好的结果。而limma+voom对超过两个重复的样本有较好的结果。NOIseq和DESeq2显示一致性的结果,表明了这些软件适合较大的样本数和已经注释了的基因组。SAMseq能够列出最相关的DEG但是假阳性比较高。edgeR软件识别的DEGs相对来说有更低的真阳性率,81.3%的结果与qRT-PCR一致。
文献支持
相对性能前三的软件的比较
参考文献:RNA-Seq differential expression analysis: An extended review and a software tool