CancerGeneNet:将驱动基因与癌症标志联系起来
Iannuccelli M, Micarelli E, Surdo PL, et al. CancerGeneNet: linking driver genes to cancer hallmarks. Nucleic Acids Res. 2020;48(D1):D416-D421. doi:10.1093/nar/gkz871
摘要
CancerGeneNet (https://signor.uniroma2.it/CancerGeneNet/) 是将癌症中经常发生突变的基因与癌症表型联系起来的资源。资源利用了管理工作的优势,旨在将在癌细胞中发现的大部分基因产物嵌入到因果蛋白质关系网络中。反过来,图算法允许推断将癌症相关基因与癌症表型联系起来的因果相互作用的可能路径,从而为设计恢复疾病表型的策略提供了一个合理的框架。 CancerGeneNet 通过将活动受癌症驱动因素影响的蛋白质与影响“癌症标志”的蛋白质连接起来,连接了两个相互作用层。此外,CancerGeneNet 注释了与合理化选定常见癌症中癌症驱动突变的病理后果相关的策划途径,以及说明在不同癌症中经常改变的调节回路的“MiniPathways”。
介绍
能够在一天内以与传统诊断方法相媲美的成本对整个基因组进行测序,这有助于组装大量癌症基因组,这些基因组可在公共存储库中免费访问 ( 1 )。反过来,与患者非转化组织的基因组序列进行比较,可以通过识别在特定肿瘤类型中经常发生突变的基因来定义癌症基因组图谱 ( 2 )。利用这些信息,COSMIC 癌症基因普查 (CGC) ( 3 ) 列出了与不同癌症的发病和进展有因果关系的基因列表。额外的独立策划工作,例如比较毒物基因组学数据库(4)、IntOGen ( 5 )、DriverDBv2 ( 6 ) 或 UniProtKB 联盟 ( 7 ) 和其他人都瞄准了类似的目标,尽管采用不同的策略并使用不同的标准来过滤基因-癌症关联的实验支持。DisGeNET 项目(8) 列出了与 738 种肿瘤疾病相关的 4145 个基因。然而,尽管这些研究在某些情况下导致了对潜在因果变异的精细映射并产生了一些机制见解,但我们对遗传变异与癌症发病和进展之间联系的理解仍然有限。Hanahan 和 Weinberg 的一篇开创性论文提供了一个广泛使用的概念框架(癌症的标志),以合理化肿瘤疾病的复杂性 ( 9 )。现在的挑战是在癌症中经常突变的基因和“标志性表型”之间建立功能路径。这些信息可能有助于设计恢复癌症表型的治疗策略。
CGC 小组已经开始了一项策展工作并筛选了文献以恢复将癌症基因与癌症表型相关的实验信息 ( 3 )。
数据库 CancerGeneNet ( https://signor.uniroma2.it/CancerGeneNet/ ) 旨在通过使用不同的无偏见方法来解决类似的挑战,该方法旨在精确识别解释癌症基因突变对癌症表型影响的因果关系链。该资源基于实验信息的注释,允许将癌症基因嵌入因果蛋白质关系的细胞网络中。它基于三个管理工作和一组图形算法来连接基因列表并找到网络上任意两个节点之间的最短路径。
CancerGeneNet 利用 SIGNOR ( 10 ) 中策划的global因果网络,这是一个策划逻辑关系的数据库,它为研究不同信号蛋白之间的信息流提供了一个框架,从而将基因与表型联系起来。
详细结果请看原文
https://academic.oup.com/nar/article/48/D1/D416/5584570?login=false
材料和方法
癌症基因列表
我们利用了两个癌症相关基因列表(补充表 S2)。第一个列表是专家策划的列表,从 CGC 网站 (v89) ( 3 ) 下载。普查将 710 个基因与 354 种肿瘤类型相关联。第二个列表是从文件“Curated gene-disease associations”(DisGeNET v 6.0)( 8)。我们选择了疾病类型“疾病”和疾病语义类型“肿瘤过程”的记录,得到了与 710 种肿瘤类型相关的 4145 个癌症基因的列表。虽然 CGC 是一个精选列表,但 DisGeNET 资源整合了来自不同资源的数据,并且在纳入标准方面的选择性要低得多。结果,一些肿瘤与大量基因相关,多达~1000个。然而,DisGeNET 列表可以根据取决于支持证据的分数进行排名。在 CancerGeneNet 中,DisGeNET 癌症基因列表被截断为得分最高的 50 个基因。
策展规则和策略
通过标准方法(PubMed 和 Google 搜索)在科学文献中搜索了有关连接癌症基因、癌症表型和癌症药物的逻辑关系的信息。检索到的文章由专家策展人过滤,并根据 SIGNOR 策展模型在数据库中注释相关信息。
癌症表型,形成 CancerGeneNet 图的终点,是“癌症标志”的缩短版本 ( 9 )。CancerGeneNet 中的癌症标志和癌症表型之间的映射报告于补充表 S1。我们没有考虑“避免免疫破坏”,因为这个标志涉及不同细胞类型之间的相互作用,我们添加了表型“分化”。标志性的“失调的细胞能量学”包含大量非常不同的“代谢表型”。在我们的分析中包含所有这些表型会使管理工作复杂化,增加搜索算法的负担并混淆结果页面。我们将努力限制在“糖酵解”表型上,因为这种代谢途径的调节可能是研究得最好的,而有氧糖酵解是 Warburg 效应最清晰的读数。
最后,我们利用最近的一篇论文 ( 11 ),该论文提供了 FDA 批准的抗癌药物及其靶点列表,手动注释了 91 个 FDA 药物和 105 个基因靶点。
数据库结构和门户网站实现
数据通过基于 HTML5 的 Web 界面呈现给用户,并与 JavaScript 脚本集成,以提供更加动态和响应迅速的用户交互。大多数数据操作和显示都是通过 PHP(7.0.33 版)处理的。R 脚本用于提取更多有意义的信息。网络查看器是使用 SPV (Signaling Pathway Visualizer, v1.0) ( 12 ) 创建的。
图算法
使用 R igraph ( 13 )的最短路径功能以编程方式识别特定基因和癌症表型之间的最短路径。此函数返回链接有向图中任意两个节点的所有最短路径,例如 SIGNOR 中的那个。为了让用户能够探索与最短路径不同但可能与生物学相关的路径,我们使用了在NetworkX 模块中实现的函数all_simple_paths ( 14) 的 Python 语言。实现的函数返回将查询基因链接到目标表型的所有最短路径,并添加那些长一步的路径。生成的路径列表通过使用路径长度的度量来排名相关性,该度量考虑了形成路径的每个边缘的“可靠性”,如 SIGNOR 中所定义(Licata et al.正在提交给 NAR 数据库问题)。该可靠性分数结合了支持策划关系的功能相关性的四个特征:(i)支持 SIGNOR 中交互的参考(PMID)的数量,(ii)包括交互的 SIGNOR 路径的数量,(iii)数量Reactome 交互组中关系的出现次数和 (iv) 在 UNIPROT 源实体页面中提及目标实体的次数。组合的可靠性得分范围从 0 到 1。接下来,我们通过以下简单关系d = 1 – r定义了与可靠性 ( r ) 相关联的节点距离 ( d ) 。
总路径长度是路径中所有边的长度之和。我们还评估了蛋白质活性对表型的影响,其中包含 0 个或偶数个抑制步骤的路径被定义为表型激活剂,否则被视为表型抑制剂。
癌症相似性网络
癌症相似性网络提供了对资源中数据的替代访问。为了绘制网络,我们首先通过比较任何一对癌症之间的癌症相关基因列表来计算 Jaccard 指数。对于 DisGeNET 基因列表,我们将计算限制为 50 个具有较高肿瘤关联评分的基因。Jaccard 指数高于任意选择的阈值的癌症由图中的边连接。该网络在主页上显示了 Cytoscape.js ( 16 ),这是一个用于图形可视化和分析的 Javascript 库。节点(癌症)大小映射到相关基因的数量。边宽与P的-log10有关--通过 Fisher 精确检验计算的值。CGC 和 DisGeNET 数据集的图形均使用欧拉布局呈现。为避免 DisGeNET 图过于拥挤,未显示具有三个或更少相关基因的癌症。
结果
检索因果交互作用的实验信息
CancerGeneNet 项目旨在通过蛋白质之间的因果相互作用将与癌症有关的基因与癌症表型联系起来(图1A)。两个癌症相关基因列表分别来自 CGC ( 3 ) 和 DisGeNET ( 8 ) (补充表 S2)。这两种资源使用不同的纳入策略和严格标准。因此,这两个列表的大小不同(分别为 710 和 4145 个基因产物),两个列表中只有 531 个基因是共同的(图1B)。在这个项目开始时,我们监测了在 SIGNOR 中至少有一次交互的 CGC 部分。事实证明,SIGNOR 网络中没有注释~300 个 CGC 基因(~40%)。因此,我们开始了一项策划活动,以寻找有关癌症基因扰动对细胞蛋白质组中其他蛋白质活性的影响的已发表信息。在这项工作结束时,整合到因果网络中的癌症基因的百分比上升到 80%。与 CGC 中的基因相关的关系数量从零(142 个基因)到 214(对于 AKT1)不等,如图1 C所示。
数据库内容。( A ) CancerGeneNet 数据库中分层信息的示意图。第二层代表专门为该项目策划的癌症基因网络。顶层的黄色六边形代表靶向敏感信号蛋白的抗癌药物。癌症基因影响 SIGNOR 中的因果相互作用组网络(浅绿色圆圈),直接影响癌症表型(绿色矩形)。( B ) 癌症基因普查和 DisGeNET 中注释的癌症基因的维恩图。( C ) 直方图,表示癌症基因普查库中每个癌症基因的关系数量分布。( D)该图说明了(i)在Signor中注释的蛋白质集合的大小,(ii)包含在癌症基因普查中,(iii)抗癌药物的特定靶标或(iv)已被注释为表型修饰符。
可以从 CancerGeneNet 中的精选信息中提取的图是一个三方符号的有向图,将癌症相关基因产物与癌症表型和抗癌药物联系起来(图1A)。为该项目注释的交互已被选中,因为它们与癌症通路的调节相关,并已根据 SIGNOR 数据模型 ( 10 ) 和管理规则进行管理,遵循“因果标签”标准 ( 17 ))。我们首先寻找有关 CGC 中列出的基因产物与人类蛋白质组中的蛋白质之间因果关系(即蛋白质 A 激活蛋白质 B)的实验信息。因果关系及其符号取决于遗传背景。CancerGeneNet 中的所有注释都指的是野生类型的背景。在推断出突变对蛋白质活性的影响后,需要评估每个激活/失活突变对疾病背景下信息流程的影响。
通过这种方法,我们已经策划了~6000个新的相互作用。然而,142个癌症基因(〜20%)保持不协调,因此与global因果细胞互作组分开(补充表 S3)。对于这些基因中的大多数,无法找到关于它们与癌症促进联系的直接逻辑相互作用的可靠信息。
接下来,我们已经确定了在过表达或失活时(~120 种蛋白质)被证明会影响癌症表型的蛋白质(例如 p53 表示“细胞死亡”)。这一步具有一定程度的随意性,因为许多基因或多或少直接与某些特征相关联。我们选择了八种表型,这些表型在我们的数据模型中很容易实现,并且可以映射到癌症标志(补充表 S1)。最后,我们将这两个交互层嵌入到全局人类细胞因果交互组中,正如 SIGNOR 数据库中所注释的那样。
在第三项策展工作中,我们注释了用于治疗的抗癌药物与其靶向蛋白质之间的因果相互作用(图1D)(11)。
此外,在不同肿瘤中经常改变的癌症通路和 MiniPathways 已被手动管理,允许分析通路串扰并将推断的癌症网络与癌症中经常改变的过程进行比较。我们为每个注释的癌症通路定义了一组 20-30 种蛋白质,这些蛋白质通常在肿瘤中发生突变或表达受到干扰。癌症通路是连接“种子”实体的关系集合。MiniPathway 是较小的网络(大约 10-15 个实体),描述了在不同类型的癌症中经常受到干扰的信号转导模块。
数据库接口
开发 CancerGeneNet 资源的主要动机是提供一个因果关系数据库和工具,以帮助 (i) 推断将癌症相关基因与癌症相关表型联系起来的路径,以及 (ii) 识别发现突变的基因之间的功能相关性通过建立因果关系网络来治疗癌症。
网站主页提供了四个入口点来搜索和查询数据库。
左上角的面板允许输入任何基因(Uniprot ID 或基因名称)或基因列表,并在数据库中查询连接感兴趣基因和表征癌症的八种表型的最短因果路径。可以单独或同时搜索连接任何基因和八个标志的路径。路径搜索算法的结果显示为显示将查询基因连接到表型的相互作用的图表,以及列出所有最短路径和长一步的表的表格。根据方法中描述的可靠性度量对路径进行排名并在表格中列出,并用绿色或红色勾勒以分别识别激活和抑制路径。
CancerGeneNet 还提供了第二个功能,帮助解决查找列表中的基因(例如与给定癌症相关的基因列表)是否通过因果关系联系起来的任务。这可以通过在下拉菜单中或在代表癌症相似性的网络中搜索特定癌症来实现,这通过计算癌症基因列表中每对肿瘤的 Jaccard 指数来确定。两个入口点均可用于访问 CGC 或 DisGeNET 数据集。通过在下拉菜单中选择给定的癌症或通过单击相似性网络中节点弹出窗口中的“连接驱动基因”,用户可以启动搜索以寻找癌症相关基因之间的逻辑关系。三种类型的图表组合在一起,可以图形化显示(图2A )。在第一个显示(级别 1)中,仅显示了查询基因之间的直接连接。第二种算法(第 2 级)旨在通过包含蛋白质来连接查询癌症基因,这些蛋白质通过与两个癌症基因相互作用,允许在它们之间形成桥梁(第一个邻居)。最后,在第 3 级,可以显示数据库中查询基因注释的所有逻辑交互。复选框还允许将可以从mentha数据库检索到的物理交互添加到网络(18)。一旦显示这些图表中的任何一个,就可以通过添加或删除节点或根据交互分数和类型过滤图表来对其进行编辑。由 FDA 批准的抗癌药物靶向的基因产品用青色边框勾勒出来。通过单击节点,可以通过弹出窗口中的超链接显示抑制剂列表。
连接癌症相关基因。基于图形算法的工具提供了在基因列表中查找功能连接的可能性,这些基因列表可以由用户定义或从癌症基因普查或 DisGeNET 获得。( A ) 可以得到三种类型的图表。在级别 1 仅显示查询基因之间的直接连接。在第 2 级,两个查询基因可以通过与全局因果相互作用组中的常见蛋白质的因果相互作用联系起来。最后,在第 3 级,显示了查询癌症基因的所有相互作用。( B ) 一旦显示了这些图表之一,就可以使用已策划的癌症 MiniPathways 列表来探索交叉对话。
一项附加功能允许计算显示的网络和数据库中管理的癌症 MiniPathways 之间共有的节点数量,并使用为 DISNOR 数据库描述的相同程序计算重叠的统计显着性 ( 19 )。这提供了推断可能在正在审查的肿瘤特异性网络中受到干扰的癌症途径的可能性。最后,显示的图表和癌症 MiniPathways 之间的串扰可以以图形方式显示(图 2B)。用于生成图表的注释信息可以以制表符分隔的格式下载以供本地使用。
上述方法不仅限于在 CGC 和 DisGeNET 中注释的基因列表,因为可以在“连接蛋白质”框架中输入任何用户定义的基因列表,以查询数据库并绘制连接列表中基因的网络(图2A )。
讨论
CangerGeneNet 提供给用户探索选定基因改变的癌症驱动本质的机制。这在癌症资源全景中是独一无二的,并且很有用,因为它可以激发新的假设进行实验测试。由于 CancerGeneNet 网络是定向和签名的,它的分析还允许推断任何因果关系链是否有可能激活或停用链的末端节点。人们可能会惊讶地发现,这类查询的答案不是一成不变的,而是取决于所考虑的具体路径。对这些发现可能具有琐碎的解释,其中一些结果如下所述。然而,我们还需要考虑基因/蛋白质 - 功能取决于可以在一个语境中归类为癌基因的基因的上下文和报告,而另一个语境中的onco-抑制剂变得越来越普遍(20-24 )。
我们已尽最大努力确保注释工作的高覆盖率和准确性。然而,我们知道,重要的逻辑关系可能没有引起我们的注意,而其他一些关系可能被错误地注释了。这可以通过持续的管理和修订工作来改进。另一个重要的警告是,我们的“幼稚方法”假设蛋白质组中的所有蛋白质都在所有细胞中表达,因此,它可能表明连接未在特定肿瘤中表达的蛋白质的路径。蛋白质组表达数据库,如人类蛋白质图谱 ( 25 ) 可以帮助过滤涉及未在感兴趣的生物系统中表达的蛋白质的路径。
最后,我们的模型可能不足以代表细胞信号的复杂性。例如,在我们的模型中,蛋白质具有可以被刺激或抑制的“一个”功能。该模型不允许考虑蛋白质具有可以独立调节的两种不同功能。例如,一种激酶具有两个靶标,其中两种活性中只有一种受到抑制剂的调节。
将图算法应用于 CancerGeneNet 底层网络允许实现与推断改变任何给定基因产物的表达或活性的表型影响相关的任务。在数据库的前端,我们已经实现了许多图形算法来操作有符号的定向“癌症图”,以帮助完成以下任务:(i)确定将任何给定基因与癌症标志表型联系起来的路径,(ii )给定一个明显不相关的肿瘤相关基因列表,如在 CGC 或 DisGeNET 中,通过因果关系将它们连接起来,(iii)给定任何用户定义的基因列表,通过因果关系将它们连接起来,并将它们与癌症的标志联系起来。
CancerGeneNet 的价值在于对连接癌症相关基因的细胞因果网络的无偏见覆盖,而不会对相关的因果关系产生太大偏见。因此,该资源能够提供新颖的假设。然而,应该记住,生物学比图论更复杂,资源输出应该被视为建议,并由专家癌症生物学家进行严格过滤。
最后,我们策划工作的一个意想不到的结果是发现,对于多达 20% 的癌症基因,我们对其致瘤功能的分子机制知之甚少。
许多资源都集中在癌症信号通路上(15、26、27)。然而,据我们所知,人工注释的信息内容和可以使用 CancerGeneNet 完成的任务是任何其他公共资源都无法比拟的。CancerGeneNet 提供了一种独特的工具,可以弥合基因组数据和癌症表型之间的差距。
数据可用性
CancerGeneNet 可在https://signor.uniroma2.it/CancerGeneNet/获得。可以从https://signor.uniroma2.it/下载基础策划信息。
参考
-
Hutter C., Zenklusen J.C. The cancer genome Atlas: creating lasting value beyond its data. Cell. 2018; 173:283–285.
-
Tate J.G., Bamford S., Jubb H.C., Sondka Z., Beare D.M., Bindal N., Boutselakis H., Cole C.G., Creatore C., Dawson E. et al. . COSMIC: the catalogue of somatic mutations in cancer. Nucleic Acids Res. 2019; 47:D941–D947.
-
Sondka Z., Bamford S., Cole C.G., Ward S.A., Dunham I., Forbes S.A. The COSMIC cancer gene Census: describing genetic dysfunction across all human cancers. Nat. Rev. Cancer. 2018; 18:696–705.
-
Davis A.P., Grondin C.J., Johnson R.J., Sciaky D., McMorran R., Wiegers J., Wiegers T.C., Mattingly C.J. The comparative toxicogenomics Database: update 2019. Nucleic Acids Res. 2019; 47:D948–D954.
-
Gonzalez-Perez A., Perez-Llamas C., Deu-Pons J., Tamborero D., Schroeder M.P., Jene-Sanz A., Santos A., Lopez-Bigas N. IntOGen-mutations identifies cancer drivers across tumor types. Nat. Methods. 2013; 10:1081–1082.
-
Chung I.-F., Chen C.-Y., Su S.-C., Li C.-Y., Wu K.-J., Wang H.-W., Cheng W.-C. DriverDBv2: a database for human cancer driver gene research. Nucleic Acids Res. 2016; 44:D975–D979.
-
UniProt Consortium, T UniProt: the universal protein knowledgebase. Nucleic Acids Res. 2018; 46:2699–2699.
-
Piñero J., Bravo À., Queralt-Rosinach N., Gutiérrez-Sacristán A., Deu-Pons J., Centeno E., García-García J., Sanz F., Furlong L.I DisGeNET: a comprehensive platform integrating information on human disease-associated genes and variants. Nucleic Acids Res. 2017; 45:D833–D839.
-
Hanahan D., Weinberg R.A. Hallmarks of Cancer: the next generation. Cell. 2011; 144:646–674.
-
Perfetto L., Briganti L., Calderone A., Perpetuini A.C., Iannuccelli M., Langone F., Licata L., Marinkovic M., Mattioni A., Pavlidou T. et al. . SIGNOR: a database of causal relationships between biological entities. Nucleic Acids Res. 2016; 44:D548–D554.
-
Sun J., Wei Q., Zhou Y., Wang J., Liu Q., Xu H. A systematic analysis of FDA-approved anticancer drugs. BMC Syst. Biol. 2017; 11:87.
-
Calderone A., Cesareni G. SPV: a JavaScript Signaling Pathway Visualizer. Bioinformatics. 2018; 34:2684–2686.
-
Csárdi G., N.T. The igraph software package for complex network research. Inter. J. Comp. Syst. 2006; 1695:1–9.
-
Hagberg A.A., Schult D.A., Swart P.J. Exploring network structure, dynamics, and function using NetworkX. Proceedings of the 7th Python in Science Conference. 2008; SciPy 200811–16.
-
Fabregat A., Jupe S., Matthews L., Sidiropoulos K., Gillespie M., Garapati P., Haw R., Jassal B., Korninger F., May B. et al. . The reactome pathway knowledgebase. Nucleic Acids Res. 2018; 46:D649–D655.
-
Franz M., Lopes C.T., Huck G., Dong Y., Sumer O., Bader G.D. Cytoscape.js: a graph theory library for visualisation and analysis. Bioinformatics. 2015; 32:btv557.
-
Perfetto L., Acencio M.L., Bradley G., Cesareni G., Del Toro N., Fazekas D., Hermjakob H., Korcsmaros T., Kuiper M., Lægreid A. et al. . CausalTAB:the PSI-MITAB2.8updated format for signalling data representation and dissemination. Bioinformatics. 2019; 35:3779–3785.
-
Calderone A., Castagnoli L., Cesareni G. mentha: a resource for browsing integrated protein-interaction networks. Nat. Methods. 2013; 10:690–691.
-
Lo Surdo P., Calderone A., Iannuccelli M., Licata L., Peluso D., Castagnoli L., Cesareni G., Perfetto L. DISNOR: a disease network open resource. Nucleic Acids Res. 2018; 46:D527–D534.
-
Williams T.M., Lisanti M.P. Caveolin-1 in oncogenic transformation, cancer, and metastasis. Am. J. Physiol. Physiol. 2005; 288:C494–C506.
-
Eskelinen E.-L. The dual role of autophagy in cancer. Curr. Opin. Pharmacol. 2011; 11:294–300.
-
Bard-Chapeau E.A., Li S., Ding J., Zhang S.S., Zhu H.H., Princen F., Fang D.D., Han T., Bailly-Maitre B., Poli V. et al. . Ptpn11/Shp2 acts as a tumor suppressor in hepatocellular carcinogenesis. Cancer Cell. 2011; 19:629–639.
-
Liu H., Wu Y., Zhu S., Liang W., Wang Z., Wang Y., Lv T., Yao Y., Yuan D., Song Y. PTP1B promotes cell proliferation and metastasis through activating src and ERK1/2 in non-small cell lung cancer. Cancer Lett. 2015; 359:218–225.
-
Neel J.-C., Humbert L., Lebrun J.-J. The dual role of TGFβ in human Cancer: From tumor suppression to cancer metastasis. ISRN Mol. Biol. 2012; 2012:1–28.
-
Uhlen M., Zhang C., Lee S., Sjöstedt E., Fagerberg L., Bidkhori G., Benfeitas R., Arif M., Liu Z., Edfors F. et al. . A pathology atlas of the human cancer transcriptome. Science. 2017; 357:eaan2507.
-
Kuperstein I., Bonnet E., Nguyen H.-A., Cohen D., Viara E., Grieco L., Fourquet S., Calzone L., Russo C., Kondratova M. et al. . Atlas of Cancer Signalling Network: a systems biology resource for integrative analysis of cancer data with Google Maps. Oncogenesis. 2015; 4:e160.
-
Kanehisa M., Furumichi M., Tanabe M., Sato Y., Morishima K. KEGG: new perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 2017; 45:D353–D361.