03. 识别motif和motif如何对应到基因上
Motif TFBS TFs 和Genes是如何关联的?
请注意:工作的目标是将项目重点关注的基因组上的Motif对应到所影响的基因上。此文主要总结的是怎么通过各种数据库来对Motif进行分析,还有很多的模型方法可以直接提取信息,这里只列举了一个,有需要者自己查询资料。
Motif对应Target Genes
Motif
数据库有Jaspar;Transfac;以及Homer本身自带的Motif数据库。motif往往是比较短的低于10bp长度的一些特征序列。Motif是TFBS上面的模式序列。
TF(Transcription Factors)
TF指代的就是转录因子本身,例如有空间结构的蛋白质分子。ChiP-seq实验实际上就是免疫蛋白共沉淀,针对的就是不一样的TF做Chip-seq,找到在某一条件下TF结合的位点也就是TFBS。
传统的方法是在一个基因的TSS的上下游2Kb能找到TFBS则认为是存在调控关系的。也有一些相关的工具,利用统计模型能够量化基因与转录因子之间的关系,并且做出排序(TIP: A probabilistic method for identifying transcription factor target genes from ChIP-seq binding profiles)。
此外,还有另一个方法就是利用别人已经整理好的数据集,例如MSigDB Collections(GSEA MSigDB),这里的对应关系是motif和gene set之间的关系,分成两个部分:
1,Gene sets that contain genes sharing putative target sites (seed matches) of human mature miRNA in their 3'-UTRs.(221 gene sets)
2,Gene sets that share upstream cis-regulatory motifs which can function as potential transcription factor binding sites. Based on work by (Xie et al.2005 Nature)。
而实际上这个数据集整理的是多个物种在promoter的保守区域注释出来的motif。
另外,还有另一个数据集tftargets,集合了TRED/ITFP/ENCODE/Neph2012/TRRUST/Marbach2016这6个数据集。可以查询TF对应的基因。
处理的思路
1,在GEO和ENCODE中寻找你想要的TF对应的Chip-seq数据,这样子能获取TF在基因组上的target位置,所以在你感兴趣的细胞系或者组织上执行ChiP-seq。然后再用相关的工具进行校正和计算。
2,另外的方法就是已知一些motif,在基因组上扫描,如果这个motif在基因上的promoter区域,那么就认为与这个基因有关联。
3,使用现成的已经校正过的经验数据集,Homer是其中注释的比较完整的数据集有几十个G的文件。
Homer和Homer数据库
De novo识别motif
Homer是一个被设计来识别两组序列之间的motif差异富集情况的算法。这意味着这个算法需要使用两组序列:1,目标序列(共调控基因的promoter区域);2,背景序列(无调控的基因Promoter区域)。如果没有背景序列的话,那么会随机猜测一个位点的碱基概率,而这种做法是相当不精确的。
把De Novo识别的motif比对到已知的motif
由于ChiP-seq技术可以捕获实验条件下真实存在的TFBS,所以Homer会尽量找到与de novo motif最相似的一些已知的motif。
Known Motif Enrichment
Homer提供两种Enrichment, de novo motif discovery可以直接富集在你的目标集中的motif序列。而Known motif enrichment则是简单地告诉你在你的目标集中Known motif的富集程度。
X.Shirley Liu's Lab: BETA
BETA-basic: Binding and Expression Target Analysis Predict the factors (TFs or CRs) direct target genes by combining the binding and expression data
BETA-plus: Binding and Expression Target prediction and motif analysis Predict the factors (TFs or CRs) direct target genes by combining the binding and expression data, then do motif analysis on target regions
BETA-minus: Targets prediction with binding only Predict the factors (TFs or CRs) direct target genes by only binding data