单基因泛癌纯生信分析
今天小编要和大家分享的是一篇今年11月发表在EBioMedicine(IF:5.736)杂志使用公共数据资源进行纯生信分析的关于研究泛癌中HER2指数从而揭示了HER2靶向治疗转录模式的文章。
HER2指数的泛癌分析揭示了HER2靶向治疗的精确选择的转录模式
分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号
一.研究背景
HER2的扩增和过表达在精准医疗中具有重要意义,同时在乳腺癌或胃癌患者中,HER2是一个可识别的抗HER2治疗靶点。此外,泛癌中存在广泛的HER2改变,这表明HER2靶向治疗可能拥有更广的应用范围。然而,目前这类治疗的生物标志物仍然不足,并且仅限于乳腺癌和胃癌。因此,这篇文章利用TCGA数据库去阐明泛癌中多组学HER2状态的图谱。文章还开发了一种机器学习方法来评估不同癌症亚型中的HER2富集表达模式,这可能为抗HER2疗法在更广泛的癌症中应用提供了线索。
二.研究的数据及结果
1.数据:作者下载了TCGA中泛癌的拷贝数数据、突变数据、表达数据及临床数据。此外,作者还下载了多套GEO数据对分析结果进行验证。作者也从GDSC下载了细胞系药物敏感性数据,同时研究也下载了包含17634个原发性肝癌细胞系基因的基因组级CRISPR敲除结果的遗传依赖数据集。研究也涉及从depmap下载用于遗传依赖分析的癌细胞基因组数据。作者也从CCLE下载各细胞系原发部位和疾病亚型的注释信息。
2.HER2过表达阈值:HER2阳性作为计算不同水平(mRNA、蛋白和磷酸化蛋白)HER2过表达阈值的标准。阈值被定义为与临床HER2状态最一致的值,并计算了其ROC、AUC及其置信区间。最终确定的阈值为达到敏感性和特异性最大总和的值,用来区分临床HER2阳性病例和阴性病例。
3.GSVA分析:作者使用来自 MSigDB的hallmark及 C5基因集进行GSVA分析。
4.OCLR及HER2指数的构建:作者首先比较了HER2富集亚型及其他亚型,获得了1800多个差异表达基因,然后使用差异表达基因进行模型训练。在使用Z-score进行标准化后,通过缩放HER2特征基因对应的表达值后,作者应用OCLR(one-class logisticregression)机器学习算法提取HER2富集亚型的转录特征,接着HER2指数定义为Z-score转化的mRNA表达矩阵与加权HER2特征之间的Spearman相关性。最后使用留一法评估ROC、AUC对结果进行评估。
5.快速基因集富集分析(FGSEA):作者使用fgsea R包进行fgsea分析。
6.用于比较的特征选择:作者选择了几个研究报道的作为HER2靶向治疗反应预测因子的基于表达的生物标志物与研究指数进行比较。
7.TumorMap:UCSC TumorMap是一个交互式可视化和分析工具,用于探索肿瘤样本之间的模式,每个样本的位置根据它们在原始基因组空间中的分子图谱相似度排列在一个六边形网格上。作者使用24种癌症类型、96个亚型的6830个肿瘤样本的HER2特征图谱(1818个基因)作为输入,并以每个样本的癌症类型、亚型和HER2指数作为颜色属性。
三.研究的主要内容及结果
1.谱系多组学HER2在泛癌症中的状态
在文章的第一部分作者首先研究了TCGA数据库中33种癌症类型中1020例肿瘤样本的HER2状态,包括拷贝数变异(CNV)、单核苷酸变异(SNV)、mRNA、反相蛋白和磷酸化蛋白阵列数据(RPPA)。其中,以乳腺癌(BRCA)临床HER2阳性信息作为评估HER2在泛癌中过表达的标准。研究发现HER2扩增/过表达在多种癌症中普遍存在(图1a,表1)。除BRCA和胃腺癌(STAD)外,作者还识别了其他11种HER2扩增或过表达频率较高的癌症。可以观察到,在这些HER2异常癌症中,HER2 mRNA或蛋白表达在LUSC和LUAD中达到极高水平,但其得分较低,UCS中过HER2过表达得分较高,但表达较低(图1a,b)。研究也发现,HER2过表达并不局限于HER2扩增,在癌症类型中也观察到基因组和蛋白质组之间的不一致。例如,作者在HNSC, GBM, THCA, LGG及部分LUSC及LUAD中观察到一些样本具有较高的HER2蛋白及磷酸化蛋白表达,但是他们缺少HER2的扩增或者mRNA的过表达。此外,在KIRP、PRAD、PAAD、SARC和部分COAD等肿瘤中,HER2仅蛋白过表达(图1a和1c)。研究也发现,虽然在一些病例中,HER2突变与HER2的扩增/过表达同时发生,但其独立于HER2扩增/过表达(图1d)。
图1 多组学HER2在泛癌症中的状态
表1 TCGA中33癌症类型中HER2扩增/过表达的频率
2.泛癌中HER2 SCNA增加的肿瘤基因组特征
由于HER2是一种通过体细胞拷贝数改变(SCNAs)来驱动肿瘤生长的癌基因。对于二倍体基因组来说,当拷贝数不等于2时出现SCNA,这其中通常包括低水平和高水平扩增。因此在这一部分作者对HER2的SCNAs进行了更详细的分析。首先,作者使用基因组改变百分比(PGA)进行比较评估了泛癌中SCNAs的整体强度。结果发现在泛癌中,PGAs在HER2扩增肿瘤中显著增高。并且,对每一种癌症类型的分析也发现,HER2扩增的肿瘤中PGAs也较高(图2a)。这些结果可能表明,不同类型肿瘤的SCNA强度存在内在差异,HER2扩增与基因组不稳定性之间存在很强的相关性。此外,分析也发现HER2高水平扩增在低频率,低水平扩增泛癌中更常见(图2b)。进一步分析也发现,HER2扩增由包括PGAP3-ERBB2(HER2)-MIR4728-MIEN1-GRB7-IKZF3的六基因区域所决定,在泛癌中,这些基因在95%以上的HER2扩增肿瘤中共同扩增(图2c)。此外,作者也发现,17号染色体的Chr17q22-23子区域比起消化系统肿瘤在妇科肿瘤如BRCA , CESC, UCEC等表现出更高的扩增频率,表明Chr17q22-23在妇科肿瘤选择性扩增(图2d)。
图2 泛癌中HER2 SCNA增加的肿瘤基因组特征
3.临床HER2阳性BRCA的转录组异质性
先前研究已经在HER2阳性患者中观察到不同的治疗反应,这表明了其潜在的分子多样性。因此,在这一部分作者研究了75例采用PAM50分类的临床HER2阳性BRCA样本。可以观察到HER2富集亚型占51.4%,Luminal A、Luminal B和Basal-like亚型分别占18.9%、27%和2.7%(图3a)。且几乎所有富含HER2的样本都有HER2扩增,而且在LuminalA/B和Basal-like亚型中HER2扩增频率较低(图3a),此外,富含HER2的亚型中HER2 mRNA、蛋白和磷酸化蛋白的表达水平也最高(图3b)。接下来,作者使用MSigDB的hallmark和C5基因集进行了GSVA分析,来识别与每个亚型相关的通路改变,结果如图3c所示。然后作者详细分析了每个亚型中HER2信号通路的活性,对每个亚型217个BIOCARTA 通路配对相关性进行一致性聚类,结果发现“Biocarta_her2_pathway”在HER2富集亚型中与大量其他通路相关,但在其他两种亚型中关联较少(图3d)。这些结果支持HER2信号转导活性和治疗反应与转录状态相关,富含HER2的亚型是抗HER2治疗的最佳亚型。
图3 临床HER2阳性BRCA的转录组异质性
4.构建HER2指数
目前,ISH及IHC检测的HER2扩增或过表达被认为是抗HER2治疗的主要生物标志物。然而,已经有报道发现PAM50分子亚型可能是更好的预测因子。同时HER2富集亚型的肿瘤表现出与HER2扩增型肿瘤相似的特征,尽管它们缺乏HER2基因的扩增。此外,与上游基因组事件相比,转录谱的评估反映了不同肿瘤的表型和生物学行为。因此,在这一部分作者利用OCLR算法来提取富集HER2的亚型的转录组特征。这个模型以TCGA中富含HER2的BRCA样本进行训练,并生成了一个加权的1818基因特征。为了解释这些基因特征,作者对其进行了GSEA分析,结果如图4c所示,其富集到与HER2相关及细胞增殖等相关的通路。接着作者使用这1818基因特征来建立HER2指数,HER2指数越高,说明与富集HER2表达模式的联系越紧密(图4a)。作者用留一法及评估ROC、AUC对指数性能进行验证(图4b)。
图4 利用机器学习构建HER2指数
5.HER2指数对HER2靶向治疗反应的预测价值
在这一部分作者为了进一步验证HER2指数对HER2靶向治疗反应的预测,首先在两个独立的GEO队列中评估了其预测性能。作者选择了几个先前研究报道的具有预测能力的特征与文中指数进行比较,结果如图5b所示,可以发现HER2指数预测能力不逊色于其他特征。此外,在与单变量和多变量逻辑回归分析测试的其他特征相比,HER2指数是唯一具有较高AUC的显著预测率的指标(图5a)。作者为了进一步评估HER2指数的预测价值,分别评估了指数与BRCA细胞系和pan-HER抑制剂的反应的相关性(图5d)。考虑到这些pan-HER抑制剂也靶向ERBB3和EGFR,作者另外从depmap获得了泛癌细胞系HER2基因的全基因组CRISPR敲除结果,并评估了HER2指数与HER2依赖评分之间的关系。结果显示,HER2指数得分高的泛癌细胞系更容易受到HER2基因敲除的影响(图5c),表明HER2指数可能作为泛癌预测因子,并帮助识别可能对HER2抑制剂有反应的患者。
图5 HER2指数对HER2靶向治疗反应的预测价值
6.评估HER2在泛癌中的表达模式
尽管原发肿瘤的位置在基因表达模式中起主导作用,但通过泛癌比较可以发现组织间的共性。HER2指数验证了HER2富集表达模式在泛癌中的预测价值,在文章的最后一部分作者想要探索其他类型的泛癌是否也有可观的表达模式。因此计算了10192个TCGA样本的HER2指数,结果如图6a所示。接着作者进一步探索HER2的多组学特征(图6b)。此外,从表2中可以观察到这些HER2异常肿瘤的发生率的变化,表明一致的HER2扩增或过表达,及具有丰富的HER2转录模式,更有可能受益于HER2靶向治疗。最后,作者使用基于1818个HER2特征基因的TumorMap进行了进一步的聚类分析,也探索了HER2区分相同组织起源的泛癌亚型的能力,结果如图6c所示,可以看出HER2具有很好的区分效能。
图6 评估泛癌肿瘤类型及亚型中HER2表达模式分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号
到这里这篇文章的主要内容就介绍完了,文章把研究目光聚焦于HER2,并利用TCGA等公共数据资源,采用差异分析,OCLR,功能富集等多种生信方法构建了一个HER2指数来评估HER2在泛癌中的表达模式。在预测HER2靶向治疗的敏感性方面,这一指数具有稳定和优越的性能,可能作为泛癌预测的生物标志物,文章的分析角度值得我们思考学习。