数据分析工具推荐 | adaptive-m6A:从RNA序列中鉴
m6A修饰是真核RNA中最丰富的共转录修饰,在细胞调控中发挥着重要作用。近日,《Briefings in Bioinformatics》发表了一种基于注意力的深度学习方法adaptive-m6A,用于识别多个物种中的m6A位点。
为什么要开发adaptive-m6A?
近年来,深度学习方法在不同领域以及RNA修饰预测中得到了广泛应用,但仍有一些局限性。首先,他们中的大多数只关注少数类型的物种,对其他物种没有或信息有限。其次,ML方法仍然是m6A位点预测的首选,并且用于这些目的的深度学习方法通常仅限于卷积神经网络框架。此外,这些方法对于构建经过实验验证的m6A数据库来说是耗时且劳动密集的。此外,很少有人讨论不同样本中修饰位点周围的基序模式,以显示具有相同类型RNA转录后修饰的不同物种之间的潜在关系。
为了克服这些障碍并研究各类物种中的m6A修饰,研究团队开发了一个具有不同框架的多物种中m6A修饰的预测模型:adaptive-m6A,是一种基于注意力的深度学习方法,由卷积神经网络、双向长短期记忆网络和注意力网络机制组成,用于识别多个物种中的m6A位点。
研究内容及性能测试
此研究种开发团队对RNA序列中的m6A修饰进行了物种特异性预测。m6A预测方法采用SVM、RF和LR等ML方法,以及主要使用由CNN、BLSTM和attention网络组成的adaptive-m6A深度学习方法。
本研究中使用的预测方法的总体框架:数据收集、特征调查、模型训练和交叉验证以及独立测试。
Adaptive-m6A在大多数测试物种中都优于传统ML方法,并取得了良好的性能;Motif分析和不同物种之间的交叉验证表明,Adaptive-m6A可以在不同物种之间实现高性能,这有助于更好地了解不同物种RNA转录组的序列特征和生物学机制。
由于NAC是用于探索m6A位点周围基序的最广泛使用的基于序列的特征,因此比较阳性和阴性数据集之间的NAC可能有助于m6A位点识别。结果表明,在六个数据集中出现了修饰和未修饰的m6A序列,其中带正电荷的核苷酸残基(A和C)似乎在底物位点周围具有最高频率。
不同物种中出现了一些连续的基序,这表明相似的模式在不同物种中往往很重要,并对相同类型的修饰有显著贡献。
在大多数情况下,Adaptive-m6A 模型与传统的 ML 方法(SRAM 和 WHISTLE)、类似网络结构的方法(即DeepPromise)相比,它可以实现更出色的性能,因为它显示出更高的 AUC 值。与DeepOME方法相比,注意力机制提供了良好的性能,并且在涉及更大的数据规模时提供了高性能。
本研究中所涉及的所有数据均可通过如下链接获取:
https://github.com/Moretta1/Adaptive-m6A.
首发公号国家基因库大数据平台
参考文献
Rulan Wang, Chia-Ru Chung, Hsien-Da Huang, Tzong-Yi Lee, Identification of species-specific RNA N6-methyladinosine modification sites from RNA sequences, Briefings in Bioinformatics, Volume 24, Issue 2, March 2023, bbac573, https://doi.org/10.1093/bib/bbac573