PrecisionFDA新冠重症因子预测建模挑战赛
多组学联合分析是指对来自不同组学,如基因组学、转录组学、蛋白组学和代谢组学等的数据进行统一处理、比较分析,用以探究生物学问题。由于生物过程具有复杂性和整体性,多种物质共同影响生命系统的表型和性状,例如环境、基因、mRNA、调控因子、蛋白、代谢等,这些组学之间,既相互独立,又互相影响,既有很大的差别,又有相似之处。
多种多样的组学联合分析将不同层面之间信息进行整合,可从不同的组学角度共同探究生物体内潜在的调控网络机制,从而可以更深层次理解各个分子之间的调控及因果关系,更深入的认识生物进程和疾病过程中复杂性状的分子机理和遗传基础。
Sentieon AI模型处理多组学数据
与传统的“大数据”机器学习问题不同,多组学的主要挑战在于其小样本、高维度的特质,即每个样本都有深层数据。Sentieon在多组学数据的联合分析应用中同样有着出色的表现。Sentieon 不断将机器学习和AI 应用到多组学分析中,以实现softPharma更广阔的视野。自2018年以来,Sentieon 参加并赢得了 PrecisionFDA的三项多组学 AI 建模挑战,展示了其解决这些问题的能力。
PrecisionFDA 2020: 新冠重症因子预测建模挑战赛
在PrecisionFDA 2020年的新冠重症因子预测的挑战赛中,主办方共提供了147451位病人的临床数据,记录了每个样本的16种不同的电子病历数据,包括诊断数据,疫苗接种,感染症状等信息。其中选取80%作训练集,20%作测试集。本次挑战赛目的是在分子生物层面作疾病的重症预测,通过模型训练预测新样本在感染后的预后情况,指出新冠重症因子。本次挑战赛的难点在于如何对电子病历等临床数据进行处理,以及面临大规模样本,低维度特征问题时的解决方案。
PrecisionFDA新冠重症因子预测建模挑战赛
针对以上问题,Sentieon分别使用GBM、AdaBoost、Ensemble learning方法进行训练,建立了3个模型,在本次比赛中分别位列第一、第二、第三名,同时也获得了8个奖项的金徽章。
PrecisionFDA新冠重症因子预测建模挑战赛结果PrecisionFDA新冠重症因子预测建模挑战赛结果