ggplot集锦

Connectivity Map

2022-09-19  本文已影响0人  可能性之兽

药物开发的领域,我到底要横跨多少个领域。。不过这篇文章有点老了,但是却是这个领域的最佳入门之一。

生物医学研究的最终目标是将人类疾病与其基因和治疗药物联系起来。但是这仍然是一项艰巨的任务,即使是最有灵感的研究人员也不得不依靠艰苦的基因或化学文库筛选。如果这个筛选过程中至少有一部分可以系统化和集中化呢?搜索结果和假设是由类似互联网搜索引擎的东西产生的吗?这些都是 ConnectivityMap 项目要回答的问题。

事后看来,生物医学的巨大成功可以被看作是将疾病与改变疾病的基因产物和蛋白质的化学调节剂联系起来的简单行为。从民间传说(发热-阿司匹林-环氧合酶1)到合理性(慢性粒细胞白血病-BCR-ABL-imatinib 2)到设计(高血压 -β-肾上腺素能受体-普萘洛尔3) ,无论点的连接顺序如何,原则都是相同的。无论具体的研究重点是什么,填充这个“连接图Connectivity Map”(图1)是生物医学的核心业务。


image.png

药物(黄色)、基因(绿色)和疾病(粉红色)之间的功能关系构成了该图中的节点。BCR-ABL,伊马替尼和慢性粒细胞白血病(CML)之间的联系提供了原始的例子: BCR-ABL 融合癌蛋白引起 CML; 伊马替尼抑制 BCR-ABL; 伊马替尼从而逆转 CML2。然而,大多数淋巴结具有改善疾病而不是引起疾病的蛋白质: 环氧合酶(也称为前列腺素内过氧化物合酶,PTGS)不会引起类风湿性关节炎,但吲哚美辛作为这些酶的抑制剂,确实提供了有效的治疗方法57。类似地,罗格列酮等噻唑烷二酮类衍生物通过激活过氧化物酶体增殖物激活受体 -γ (PPARγ)58,LTD4半胱氨酸白三烯受体(CYSLTR1)拮抗剂孟鲁司特用作哮喘治疗59,西地那非抑制磷酸二酯酶5(PDE5)治疗勃起功能障碍60。节点之间的连接是普遍的,反映了广泛的复合混杂性。这可以在蛋白质类别内(伊马替尼也抑制 KIT 受体酪氨酸激酶,西地那非抑制 PDE6) ,代表治疗性或非靶向性和其他适应症或副作用(分别为胃肠道间质肿瘤61和视觉障碍62) ,或在完全不相关的蛋白质之间(吲哚美辛也结合和激活 PPARγ63)。对许多靶点的影响也可能是一个单一指标的基础: 氯氮平的抗精神病作用是由 L5-羟色胺(血清素)受体2A (hTR2A) ,多巴胺受体 D2(DRD2)和可能许多其他受体33的亲和力介导的。请注意,这个特定的地图是由传统方法发现的联系填充的,因此代表了成千上万的研究人员多年来的共同努力。连接图项目的目的是为发现药物、基因和疾病之间的功能连接类型提供一个系统的解决方案。许多“孤儿”疾病、基因和药物仍然存在; 其中一些显示在这张地图的中心。

问题是,这些疾病-基因-药物的联系是非常困难的。最根本的挑战在于,临床医学、分子遗传学学和化学是截然不同的学科。医生谈论病人的临床表现,生物学家谈论来自基因敲除小鼠的成纤维细胞的表型,化学家谈论小分子与纯化蛋白质的结合。我们需要的是将疾病、基因功能和药物作用翻译成同一种语言。我们相信,通过全基因组表达谱分析的常用词汇,现在这是可能的。一旦不同的生物体在这个共同的全局分析空间中被表示(图2) ,找到联系是一个相对简单的数字问题。

图2: 通用功能性生物实验。


image.png

由于所有的转录本现已为人所知,并且可以获得同时测量它们的强大技术,因此有可能在一个共同的全局分析空间中捕获所有诱导或有机生物条件的客观高维描述,从而容易理解它们之间的相似之处。

基于这一基本概念,我们着手开发一种通用的解决方案,用于识别药物、基因和疾病之间的功能联系,以期彻底改革生物医学发现的方法,从而加快其发现的步伐。我们的试点研究结果最近发表了,同时发表的还有两篇论文,展示了这种新方法如何应用于癌症研究中的现实问题。在第一种情况下,我们能够确定两种表征不佳的天然产物的作用机制,发现它们对雄激素受体(AR)信号具有理想的抑制活性。在第二个实验中,我们发现了一种能够逆转急性淋巴细胞白血病(ALL)细胞中糖皮质激素耐药性的药物。

我们的解决方案是基于从受到许多化学物质和遗传试剂(我们统称为“扰动剂”)干扰的培养的人类细胞中创建的大型基因表达数据参考目录。Hughes 等人首先证明了基因表达谱概要可用于发现的一般概念。通过收集大量来自酵母缺失突变体和药物处理的野生型酵母细胞的全基因组表达数据,他们表明功能可以分配给以前未表征的基因,并确定小分子的靶标。但是,将连接性地图资源与之前的基因表达汇编(方框1)区分开来的是我们做出的选择,试图使其对实验室研究人员有用并且易于接近。

设计原则

指导Connectivity Map项目的四个原则。

中心化,系统化,妥协:对化学遗传学的日益重视,以及由此产生的寻找生物活性“工具”化合物来探测和注释感兴趣的生物学的愿望,加上 RNA干扰(RNAi)的出现和全基因组剥离文库的出现,使得学术领域生物学中的新兴主题与几十年来在工业药物发现中的主题相同: 筛选。相同的化学物质和遗传结构的文库被一遍又一遍地筛选,只是每次的检测方法不同。以连续和扩散的方式筛选不断扩大的化学和遗传文库对许多个体读数的负担是巨大的,不仅在基础设施和 perturgen 收藏的复制方面,而且还在个别研究人员投入的时间在这个极其繁琐但高要求的任务。因此,以基因表达谱分析的通用语言捕捉到的所有生物活性小分子和遗传操纵的全球效应的公共参考目录,现在是我们可以想象的最有用的资源之一。

然而,基因表达谱分析仍然是一个昂贵的追求,仍然是高度易受操作者和设施依赖的特质。将来自不同中心的表达式数据连接在一起,更不用说不同的技术了,坦率地说,这是一个不必要的复杂性。高通量高密度剖析平台的开发ーー例如 Affymetrix 高通量阵列(HTA) ,它能够每天平行地对96个样本进行自动放大、标记、杂交和扫描ーー在提供大量规模经济的同时,最大限度地减少变异性。因此,在集中式生产环境中,这种技术似乎是生成参考数据的最佳解决方案。另一方面,即使这么多火力也不足以分析估计的200种不同细胞类型中的每一种在每一个可能的持续时间内暴露于每一种可能的浓度下的每一种已知的干扰剂。因此需要妥协。我们选择了少量已建立的细胞系,选择了一个单一的暴露时间,并在我们的初步研究中使用了一个或偶尔少量的剂量4。正如预期的那样,如果浓度偏离一个日志,就会把一个强信号变成一个几乎探测不到的信号,这在9日之前就已经显示出来了。例如,我们需要一个表达过氧化物酶体增殖物激活受体 -γ (PPARγ)的细胞来观察 PPARγ 激动剂的作用。但是许多效应对细胞环境或浓度并不过分敏感,甚至体外反应和体内生物学之间潜在的不匹配这一更大的问题也不像人们可能想象的那样明显。因此,我们对已经做出的妥协感到满意,尤其是因为“筛选”我们数据的成本(在电脑前几分钟,没有实验性的开销)使得找到一部热门作品的代价相当于许多失误的代价。


image.png

(a)未表征的小分子是热休克蛋白90(HSP90)抑制剂5和(b)西罗莫司可以逆转急性淋巴细胞白血病中的糖皮质激素抵抗6(详见文本)的途径说明连接图(cmap)资源最好用于传统研究项目的背景。事实上,它的最终价值取决于详细的实验验证和后续行动。

Empower the user。传统的基因表达纲要(方框1)的问题在于,如果它们不包含你感兴趣的生物学条件,它们就没有多大用处。你可以尝试说服馆长将你感兴趣的微扰剂收藏在他或她的收藏中,但即使这样,他们的生产条件(如细胞系,治疗时间或浓度)也不太可能是你会选择的。此外,也许其他人已经完成了完美的实验,或者使用了一组特别罕见的临床标本,分析了数据,只发表了一系列差异表达基因。或者,您可能已经拥有来自自己的微调实验的表达式配置文件。您可以选择使用这些来之不易的数据。虽然它是一种通用语言,但是基因表达数据有许多方言(内容和技术)。

我们使用内部引用和外部查询数据的二分格式来解决这些问题。内部参考数据是全基因组表达谱ーー用我们首选的技术制作并系统地制作ーー而外部查询数据是由用户以其感兴趣的生物状态的基因表达签名的形式提供的(方框2)。因此,查询可以来自任何转录谱分析平台,因为由相对较少数量的基因组成,只有其变化方向的标志,它们可以很容易地直接映射到参考数据。这使得可以集成来自非人类物种的遗留数据甚至实验。但更重要的是,个别研究人员可以远程构建他们的查询,运用他们特定的生物学专业知识,而不是受制于参考资料收藏的管理者。因此,我们的方法将如何最终使用该平台的责任分散给研究团体。

Actionable intelligence。除了人类和模式生物基因组的测序明显例外,基因组学通常没有显着影响生物医学研究的方式,制药业认为可以通过这些方法找到的新药靶标的丰富性尚未实现。我们都被基因表达谱的无可置疑的力量所诱惑。但是,当面对一长串差异表达基因时,这种迷恋很快就消失了,其中许多基因是我们不熟悉的。当然,问题在于这些东西ーー就像食品杂货上的条形码ーー根本无法被人类解读,因此无助于设计一个真正的实验。我们的资源旨在成为结账时的扫描仪,将基因列表解码成化学语言,从而提供在传统研究项目背景下有意义和可行的假设(图3)。两份发表的连通性地图“成功故事”,举例说明了我们的工具在癌症研究中的两个非常不同的应用,说明了这一点。

无障碍访问:数据和数据挖掘工具的可用性、易用性以及输出与外部资源的兼容性都是可访问性问题。第一个问题很容易解决,通过一个公开可访问的网站,我们通过一个简单直观的用户界面(图4)提供所有连通性地图数据,元数据(例如 perturagen 名称,浓度,细胞系和批次)和分析工具。可用性是一个更棘手的问题。灵活性是大多数基因表达分析包的指导原则。例如,我们的局部解决方案ーー GenePattern12ーー提供了几十种算法,每种算法都有许多可调参数。然而,对于包括本文作者在内的许多研究者来说,往往有太多的选择。因此,我们的目标是保持所有的计算在后台,并提供一个单一的分析工具,没有’旋钮’无论如何,查询是执行从我们的网站实时一次点击。我们不会幻想当前的方法必然是找到连接的最佳或唯一方法,甚至找到连接是我们数据的唯一应用。因此,原始数据也可供任何有意探索替代品的人免费下载。但是,我们的主要目标是提供可检验的假设,即使那些没有任何特殊技能的基因表达数据分析。

.........

这里就不怎么展开这些原则了,介绍一下数据库

Connectivity Map (CMAP) | Broad Institute

迄今为止,CMap 已经产生了一个文库,其中包含来自约在多种细胞类型中测试过的5,000个小分子化合物的超过1.5 M 的基因表达谱,以及约3,000个遗传试剂。为了得到这么大规模的数据,我们开发了 L1000,这是一种相对廉价和快速的高吞吐量基因表达谱技术。表达数据通过计算流水线处理,该流水线将原始荧光强度转换为特征,该特征可用于查询 CMap 数据库中给出相关基因表达响应的扰动。

为了容纳和使用这些海量的数据,我们建立了一个名为 CLUE (CMap 和 LINCS 统一环境)的基于云的计算基础设施,这是一套用户友好的网络应用程序和软件工具,使研究人员能够访问和操作 CMap 数据,并将其与他们自己的数据集集成。

Connectivity Map (CMAP) | Broad Institute

[clue.io]

上一篇 下一篇

猜你喜欢

热点阅读