数据库/分析工具

生信工具 | 长读长RNA测序分析工具基准测试

2025-03-23  本文已影响0人  尐尐呅

缺乏带有内置基准数据集的情况下,比较现有长读长异构体检测和差异表达分析工作流程的性能具有挑战性。2023年10月,《Nature Methods》发表了一项成果,研究团队设计并生成了一个数据集(包含实验数据和计算机模拟数据),评估了六种长读长异构体检测、五种差异基因表达(DTE)和五种差异转录本使用(DTU)分析方法,以指导方法选择。

异构体检测方法的比较:StringTie2和bambu在测试的六种异构体检测工具中的表现优于其他工具。

StringTie2显示了更好的准确性,而bambu显示了更好的检测新异构体和分配reads的能力。然而,即使是表现最佳的工具在大多数情况下也显示出较低的精度率,受限于高精度短读取数据的有限支持,特别是在降采样分析中,这表明对新异构体的过度预测。这突出了需要改进准确性的方法开发,并鼓励对新转录本进行正交验证。为了便于比较,我们通常依赖于方法的默认设置来识别新异构体。然而,Cupcake、FLAIR和TALON报告了大量的人工合成sequin异构体、新转录本和连接点,这些数据没有得到短读长数据的支持,这表明这些参数对具有大量reads的数据集来说可能不是最佳的。

纯RNA样品异构体鉴定和定量方法的比较

DTE方法的比较:DESeq2、edgeR和limma-voom在测试的五种DTE工具中表现最佳。

对于DTE分析,短读长DTE“金标准”DESeq2、edgeR和limma-voom对长读长数据表现出类似的良好灵敏度和假阳性控制。

计算机模拟数据DTE方法的比较

DTU方法的比较:对于DTU分析,没有一种方法能够在性能和假阳性控制之间取得平衡,并且各种方法之间的一致性很小。这凸显了需要开发适用于长读长数据的工具。

DEXSeq和DRIMSeq显示出更高的敏感性,但它们对sequin spike-ins的假阳性控制不好。edgeR-diffSpliceDGE在人类和sequin转录本的DTU分析中具有更好的假阳性控制,但性能最低。与DTE分析不同,DTU分析考虑到转录本相对于基因中的所有转录本的表达,因此对转录本定量的变异更敏感。因此,ONT和Illumina数据中的定量差异对DTU结果的影响比DTE更大。在sequins中观察到的复杂性和变异性降低可能导致DTE和DTU性能评估中的偏差,这可能在实验数据上不适用,这凸显了我们使用细胞系样本进行更广泛评估的重要性。

计算机模拟数据使用DTU方法的转录水平比较

参考文献

Dong, X., Du, M.R.M., Gouil, Q. et al. Benchmarking long-read RNA-sequencing analysis tools using in silico mixtures. Nat Methods (2023). https://doi.org/10.1038/s41592-023-02026-3

首发公号:深圳国家基因库大数据平台

上一篇 下一篇

猜你喜欢

热点阅读