[数据库]CMAP干扰转录组数据库
-
cmap(Connective Map)数据库简单来说就干了一件事:对经过不同类型试剂(小分子化合物为主)处理的细胞系进行转录组层面的测序,分析这些试剂所造成的相对于正常细胞系的差异基因图谱。并基于差异基因结果,提供一系列后续分析方案。
根据上面的解释,可引申出许多cmap的背景知识
image.png
0、CMAP与LINCS
- 受美国国立卫生研究院(NIH)资助的The Library of Integrated Network-Based Cellular Signatures (LINCS) 项目旨在从多个方面捕捉对于细胞受到外界因素而自身水平做出的生物水平改变。
Disrupting any one of the many steps of a given biological process will cause related changes in the molecular and cellular characteristics, behavior, and/or function of the cell – the observable composite of which is known as the cellular phenotype.
-
而CMAP(CONNECTIVITY MAP)正是LINCS Center for Transcriptomics at the Broad Institute(cellular phenotype→转录表达水平),使用L1000测序方法建立起来的数据库。
LINCS项目下所有的数据中心,基于cellular phenotype 各有侧重
1、数据概况(截至2020/12)
- 对细胞系进行perturbagen干扰的试剂类型主要包含三大类:小分子化合物(compounds)、基因敲除(shRNA/CRISPR)、基因过表达(cDNA)。目前cmap库里的小分子化合物干扰有3w+种,其中根据文献注释,3k~个小分子(Touchstone)具有明确的作用机制(MOA,mechenism of activities,共657种)、影响通路(pathway affected)、作用靶点(target proteins)。此外还有定向敲除/过表达9k多个基因的干扰类型。共计有8w+类型干扰
- 涉及被处理的细胞系(cell line)类型有240种不同组织来源的肿瘤/正常细胞系。
- 一次干扰测到的一次差异分析结果称为1 profiles,对三次重复replication干扰的结果合并可得到这种特定的干扰类型的转录组干扰情况 1 signature。
- 由于同一种干扰可作用于不同类型的细胞系,对于小分子化合物而言,还有不同的浓度、处理时间等变量。综上来说,目前cmap数据库共有3百多万次干扰profiles,1百多万个signatures。
对于我们使用者来说,重点关注signature即可~
2、L1000 assay测序方法
- 如此百万级别的测序量,若使用常规二代测序RNA-seq或者芯片是非常非常烧钱的~
- 因此该团队仅对其中978个有代表性的
lanmark
gene 进行测序,通过大数据算法,推测出其余的11350基因的表达水平,大大节省了测序成本。 -
据此,cmap的基因可分为三类: landmark, BING, and less-well inferred genes
- 根据从测序到推测其余基因表达,再到计算得到signature,cmap供产生5种类型数据。如下图level1-3是对978个基因测序,并推测其余基因表达的步骤,level4是每个干扰的profile相对conntrol的差异分析,第5步是对replicatied profiles进行合并为signature,并标准化。对于我们使用者来说,level5是最常用的。
-
由于signature的重要性,我们有必要评价每个signature的质量如何:TAS(Transcriptional Activity Score)
一方面,signature的上下调基因越多,表示perturbagen造成影响越强;另一方面合并成signature之前的replictaed profiles之间的两两相关性越高表示可重复度高。基于此,TAS综合考虑了这两方面因素,TAS评分越高,表明对转录组的干扰越大,并且可信度高。
3、CMAP数据应用的核心--query
- 如上介绍, cmap数据库提供了1M+个signatures,其中包含数千个已知作用机制的Touchstone signatures。
- 我们可以把Touchstone signatures当作背景通路(reference),观察我们基于特定实验设计,进行差异分析得到的差异基因(分为up/down sets)是否富集到哪些signature。
-
理想结果有两种:一种是:query up(down) genes → reference up(down) genes,提示query的生物学意义与reference signature的干扰作用具有相似性;另一种是query up(down) genes → reference down(up) genes,提示query的生物学意义与reference signature的干扰介导的转录调控方向相反。
- Normalized Connectivity Scores (NCS):对于query与reference的每一个signature的富集评分,经过标准化后范围为
-1 ~ 1
。越接近1,表明越相似;越接近 -1,表明作用方向相反。 - Connectivity Map Score/Tau (τ):为了评价query与 specific signature之间的NCS是否足够强,可将其和【reference里的其它signature与该specific signature之间的NCS】进行比较,并进行标准化处理,范围为
-100 ~ 100
。a τ of 90 indicates that only 10% of reference perturbations showed stronger connectivity to the query. - 由于reference(Touchstone signatures)的生物学背景意义较为明确,对于query结果的解读具有很大的帮助~
之前看到一篇文章:如果化合物干扰转录组与基因敲除转录组具有很大程度相似性,那么很有可能表明该该基因对应的编码蛋白为化合物的作用靶点,也挺有意思的~
4、部分使用方式
- CMAP网站:https://clue.io/
4.1 下载数据
- https://clue.io/data/CMap2020#LINCS2020
- 关于gct格式的操作:GCT/GCTx数据格式+grp、gmt、gmt数据格式以及读取/储存 - 简书 (jianshu.com)
4.2 query
- https://clue.io/query
-
需要使用edu教育邮箱注册账号才可以使用这个功能。