KnockTF:转录因子敲除数据库(一)
很多转录因子预测预测的数据库是基于转录因子的chip-seq的数据来进行构建的。这样的结果能说明某一个转录因子结合某一段序列。但是结合并不一定说明可能影响这个基因的表达,所以最好做一个这个转录因子导入/导出的表达数据来说明对于基因表达的影响。
KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是一个基于这个目的构建的数据库。这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。
image这个数据库主要提供了4⃣️个功能: 浏览功能; 检索功能; 分析功能 ;下载功能。
由于功能比较多我们分两天来分别介绍(其实是偷懒而已)。
image浏览功能
我们在浏览功能当中可以看到整个数据库所有的数据分类,左边主要是数据纳入的基本信息:包括数据来自的数据库;样本种类;转录因子。右边是每个数据集的详细信息:包括数据集ID;涉及转录因子;敲除的方式;实验组织等等
我们可以看到数据库主要纳入了GEO和ENCODE的公共数据。
image我们点击数据集的ID号,可以看到这个数据集相关结果。其中包括六个部分的结果。
- 是这个数据集当中转录因子的信息,这个数据当中差异变化最大的基因可视化结果:
- 这个数据集所有差异基因的结果,默认是按照logFC的绝对值进行排序。由于是敲减的表达谱,变化的基因不一定是收到这个转录因子的影响,也可能是这个转录因子影响别的基因进而影响这个基因变化的。所以为了明确是不是收到这个基因的影响这个数据库也预测了相关基因启动区;超级增强子区;普通增强子区的可能结合的转录因子。如果这里面没有这个转录因子那就可能是连带效应导致的调控了。例如下面的GPR109B
- 这个数据集富集分析的结果: 其中包括GSEA分析;GO分析以及KEGG分析。GSEA点击具体的结果还可以看到GSEA分析的图
- 设计到ESR1上有的通路;这个数据是基于ComPAT数据库来的。
- 该数据集的可视化结果:其中包括一个热图和一个散点图
- ESR1在不同组织当中的表达情况,其中包括GTEx正常组织数据集;TCGA癌症数据集;CCLE细胞系数据集;ENCODE细胞系数据。
分析功能:
分析功能里面,我们可以基于这个数据集进行基本的分析。其中包括亚网络分析以及转录因子富集分析
亚网络分析
加入我们有一些基因想要寻找这些基因的共调控关系,就可以用这个功能。我们需要数据目标基因即可。这个功能其实类似于ChEA3数据库。
image转录因子富集
如果我们有一对转录因子想看这些转录因子是否收到受到一个转录因子的影响(并不一定是直接调控),可以使用这个功能。我们需要做的就是输入一堆目标基因,然后基于knock down的表达谱数据来看我们这些基因是不是这个数据集的差异表达基因。
image今天就介绍了这个数据库的两个功能。明天对于数据库的检索功能,我们继续讲解。
欢迎关注公众号:数据库百科,一个介绍医学科研相关数据库使用的公众号
image.png