2019年8月week4 HPV 整合 机器学习
Risk stratification of cervical lesions using capture sequencing and machine learning method based on HPV and human integrated genomic profiles
Carcinogenesis, bgz094, https://doi.org/10.1093/carcin/bgz094
Published:17 May 2019
摘要
鉴于病毒驱动的基因组变异在宫颈癌发生过程中积累,我们设计了一个39 Mb定制捕获组,针对17种HPV类型和522种与宫颈癌相关的突变基因。采用基于捕获的新一代测序,分析了34个配对样本的HPV整合状态,体细胞突变和拷贝数变异,其中包括10例HPV感染(HPV +),10例宫颈上皮内瘤变(CIN)等级和14例CIN2 +(CIN2:n = 1; CIN2-3:n = 3; CIN3:n = 9;鳞状细胞癌:n = 1)。最后,应用机器学习算法(随机森林)建立基于CIN2 +富集生物标志物的宫颈前体病变危险分层模型。
通常,HPV整合事件(HPV + 11,CIN1 25和CIN2 + 56),非同义突变(CIN1中2个,CIN2 +中12个)和拷贝数变异(HPV +中19.1,CIN1中29.4和CIN2 +中127)增加从HPV +到CIN2 +。有趣的是,在CIN2 +中显着观察到线粒体染色体的“共同”缺失(P = 0.009)。
总之,CIN2 +富集的生物标志物,分类为HPV信息,突变,扩增,缺失和线粒体变化,成功预测CIN2 +,平均准确度概率得分为0.814,扩增和删除被列为最重要的特征。我们的定制捕获测序结合机器学习方法有效地分层宫颈病变的风险,并提供有价值的综合分类策略。
Results
HPV共感染类型和宫颈病变的整合事件
table 1
突变负荷随着宫颈癌风险的程度而增加
figure 2
figure 2 测序深度和突变信息的影响。 (A)核和线粒体染色体上每个靶区域样品的平均测序读数深度。 (B)34个CIN1和CIN2 +组样品中10个(29.41%)的14个功能性突变。 (C)不同组之间的确定的突变负荷(总变异和26种宫颈癌驱动基因变体)。 (D)所有样品的SNP标记。
table 2
CIN2+中的CNV峰值
figure 3
figure 3 所有组的拷贝数变异(CNV)改变和总基因组模式。
(A)不同长度段的CNV数在组之间显着不同。
(B)在两个单独的靶向线粒体区域上的200bp bin窗口大小拷贝数比率。
(C)线粒体中“共同”缺失的可视化。
(D)三组基因组变化的景观。
RF 机器学习预测 CIN2+
figure 4
Summary
总之,我们的定制捕获面板利用不同水平的宫颈病变进行HPV基因分型/整合检测和宿主基因组谱分析。
通过RF机器学习方法,捕获测序产生的信息成功地将高级别宫颈病变分层,表明该方法可以进一步发展成诊断试剂盒,以补充目前的筛查策略。
因此,我们的NGS捕获组与传统筛查试验之间的筛选效果的比较应该在未来的大型队列中进行研究。 在NGS和人工智能的帮助下,不断改进初级和分类筛查策略将改变目前的劳动力筛查情况,并提供准确的宫颈致癌病变分类,以指导临床决策。