转录组数据分析科研信息学

TRANSFAC:转录因子及其靶基因数据库

2018-12-05  本文已影响7人  生信修炼手册

欢迎关注”生信修炼手册”!

转录调控是一种重要的调控机制,转录因子对基因的表达调控是其中研究的最广泛的一个领域。研究转录因子,最经典的数据库就是TRANFAC数据库,网址如下

http://gene-regulation.com/

该数据库中不仅收录了转录因子和对应的家族信息,也收录了转录因子调控的基因以及转录因子结合位点TFBS等信息。该数据库有以下两个版本

  1. Professional

  2. Public

两个版本的比较如下

public版本是免费开工的,但是收录的数据少很多,而且2005年之后就不在更新了。Professional数据多,功能强大,但是收费的。

虽然两个版本数据量不同,但是数据的组织和展示形式是一样的,可以通过Public来了解下其中的信息,使用public数据库是需要登录的,登录之后,可以看到如下的检索页面

public版本中,将转录因子相关信息进行了分类整体,共分成以下6种类型

1. Factor

Facto 代表转录因子,每个转录因子的编号以T开头,通过如下方式可以检索到所有转录因子的信息

共收录了73840个转录因子的信息,以转录因子T00002为例,结果如下

几个重要标签的含义如下

  1. AC代表转录因子编号,以大写字母T开头

  2. FA代表转录因子的名字factor name

  3. SY代表转录因子的别名;

  4. OS代表对应的物种

  5. OC代表物种分类信息

  6. GE代表编码该转录因子的基因

  7. CL代表该转录因子所属的分类

  8. SZ代表氨基酸长度,分子量

  9. SQ代表对应的氨基酸序列

2. Class

转录因子是一种具有调控功能的蛋白质,和蛋白质家族类似,也有转录因子家族的概念,class 代表的就是转录因子家族信息,每个转录因子家族的编号以C开头,通过如下方式可以检索到所有转录因子家族信息

共收录了292个转录因子家族,以C0001为例,结果如下

几个重要标签的含义如下

  1. AC代表转录因子家族编号,以大写字母C开头

  2. ID代表转录因子家族的class code

  3. BF代表属于该家族的转录因子

3.  Matrix

转录因子和序列的结合区包含了一个保守的motif,motif代表的是一种碱基模式,代表的是多种碱基序列,示意如下

同一个转录因子,其结合的区域序列尽管不完全一致,但是还是有很多共同的地方,上述13个序列可以用以下序列表示


上述这种写法就可以看做是一个motif,  但是只有序列信息,描述并不够完整,所以提出了一个想法,就是加上对应的原始的13种序列中的碱基分布,示意如下

上述的碱基频数分布矩阵就称之为Position Freuquency Matirx, 简称PFM, 也就是这里的Matrix信息。每个Matrix的编号以M开头,通过如下方式可以检索到所有信息

共收录了2328个PFM信息,以M00001为例,结果如下

几个重要标签的含义如下

  1. AC代表PFM编号,以大写字母M开头

  2. NA代表对应的转录因子的名字

  3. DE代表对应的转录因子的描述信息

  4. BF代表对应的转录因子的链接

  5. PO代表碱基频数分布

4. Sites

Sites代表转录因子结合区域的信息,每个结合区域的编号以R开头,通过如下方式可以检索到所有信息

共收录了68408个结合区域信息,以R0002为例,结果如下

几个重要标签的含义如下

  1. AC代表结合区域的编号,以大写字母R开头

  2. ID以物种开头,HS代表human

  3. DE代表对应的基因的描述和编号

  4. SQ代表结合区域的序列

  5. SF代表结合区域的起始位置,因为位于基因上游,所以是负数

  6. ST代表结合区域的终止位置,因为位于基因上游,所以是负数

  7. BF代表对应的转录因子的链接

5. Gene

Gene代表的就是基因信息,每个基因的编号以G开头,通过如下方式可以检索到所有基因的信息

共收录了10653个基因,以基因G000001为例,结果如下

几个重要标签的含义如下

  1. AC代表基因的编号,以大写字母G开头

  2. ID以物种加基因名字构成

  3. SD代表基因的名字

  4. BS代表该基因相关的转录因子结合区域信息以及对应的转录因子编号

6. cell

转录因子结合区域的信息是根据某个细胞系的数据计算得到的,cell代笔的就是细胞系的数据表,编号是纯数字的,通过如下方式可以检索到所有信息

共收录了1476个细胞系的信息,以0007为例,结果如下

几个重要标签的含义如下

  1. AC代表细胞系的编号

  2. OS代表物种

  3. CD代表细胞系的描述信息

  4. BS代表在该细胞系的数据中鉴定到的转录因子结合区域信息

由于public数据库不开放下载功能,我们只能利用该数据库进行检索。想要更多功能,只能购买Professional版。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

上一篇 下一篇

猜你喜欢

热点阅读