js css html癌症基因组及资源单细胞组学

DoRothEA

2023-03-23  本文已影响0人  可能性之兽

DoRothEA: collection of human and mouse regulons
Collection Of Human And Mouse TF Regulons • dorothea (saezlab.github.io)
DoRothEA是一个基于转录因子的基因表达调控网络的工具。它使用实验细胞系和组织样本的转录因子结合位点数据和DNA共定位修饰数据来构建转录因子活性模型。DoRothEA包括近2,000种不同的人类和小鼠组织和细胞类型的转录因子和调控元件,可以用于基因组数据分析以推断在不同细胞类型和状态中的转录因子活性。它提供了一种资源,使研究人员可以推断基因调控网络的拓扑结构和组成。 DoRothEA还是一种预测基因调节元件与转录因子作用对的计算工具。

image.png
## To install the package from Bioconductor
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("dorothea")

## To install the development version from the Github repo:
devtools::install_github("saezlab/dorothea")

对于每个TF-靶基因相互作用,我们根据支持证据的数量分配了置信水平。置信度分配包括五个级别,从A级(最高置信度)到E级(最低置信度)。通过四种证据支持的相互作用,专家手动筛选的特定评论中,或在至少两个筛选资源中都得到支持的相互作用被认为是高度可靠的,并被分配为A级别。B-D级别是为筛选或/和ChIP-seq相互作用保留的,具有不同级别的额外证据。最后,E级别用于仅由计算预测支持的相互作用。为了为每个TF提供最可信的调控基因集,我们汇总了置信度分数最高的TF-靶基因相互作用,以产生包含十个或更多目标的调控基因集。分配给TF调控基因集的最终置信度级别是其组成目标的最低置信度分数。

活性估计

DoRothEA调控基因集可以与任何统计方法相结合,从批量或单细胞转录组学中推断TF活性。在本文中,我们仅展示如何访问这些调控基因集及其一些属性。要推断TF活性,请查看R或Python中可用的decoupleR。
首先,我们加载必要的软件包:

library(dorothea)
library(ggplot2)
library(dplyr)

以下是如何从人类中检索所有调控元件:

net <- dorothea::dorothea_hs
head(net)
#> # A tibble: 6 × 4
#> tf confidence target mor
#> <chr> <chr> <chr> <dbl>
#> 1 ADNP D ATF7IP 1
#> 2 ADNP D DYRK1A 1
#> 3 ADNP D TLK1 1
#> 4 ADNP D ZMYM4 1
#> 5 ADNP D ABCC1 1
#> 6 ADNP D ABCC6 1

在这里,我们可以观察ADNP调控的一些目标基因。我们可以看到它们的置信度,这里是D,以及它们的调控方式,这里是正向。为了更好地估计转录因子的活性,请选择置信度为A、B和C的调控元件。

探索

我们可以观察每个转录因子的基因总数:

n_genes <- net %>%
group_by(tf) %>%
summarize(n = n())

ggplot(data=n_genes, aes(x=n)) +
geom_density() +
theme(text = element_text(size=12)) +
xlab('Number of target genes') +
ylab('densities') +
theme_bw() +
theme(legend.position = "none")

image.png

大多数转录因子(TF)具有大约20个靶基因,但有些TF的靶基因数超过1000个。

此外,我们可以可视化每个置信度级别添加了多少边缘。

n_edges <- net %>%
  group_by(confidence) %>%
  summarize(n = n())

ggplot(data=n_edges, aes(x=confidence, y=log10(n), color=confidence, fill=confidence)) +
  geom_bar(stat="identity") +
  theme(text = element_text(size=12)) +
  xlab('log10(Number of edges)') +
  ylab('densities') +
  theme_bw() +
  theme(legend.position = "none")
image.png

每个置信度水平贡献了约10,000个TF-靶向关系,B和E是例外。

我们还可以查看有多少TF是抑制剂,即大部分边缘为负的调节模式(mor),以及有多少是激活剂,即大部分边缘为正的TF:

prop <- net %>%
  group_by(tf, mor) %>%
  summarize(n = n()) %>%
  mutate(freq = n / sum(n)) %>%
  filter(mor == 1)

ggplot(data=prop, aes(x=freq)) +
  geom_density() +
  theme(text = element_text(size=12)) +
  xlab('% of positive edges') +
  ylab('densities') +
  theme_bw() +
  theme(legend.position = "none")
image.png

DoRothEA中的大多数转录因子是激活子,但也有一些是抑制子。

上一篇下一篇

猜你喜欢

热点阅读