收藏

利用UCSC预测启动子序列可能结合的转录因子

2023-05-11  本文已影响0人  生信云笔记

日常瞎掰

  一个启动子序列如何预测其可能结合的转录因子呢?最近就接到了这么一个任务,预测一段人的启动子序列可能结合的转录因子。任务并不难,也可以选择用homer2MEME等软件来预测,这里不做讨论。其实,UCSC里面已经包含了一些模式生物如人、小鼠等基因组序列的转录因子结合预测结果,咱们直接利用就完了。

UCSC

  UCSC网站里面包含了很多有用的数据,尤其是人和小鼠。下面的链接就是人基因组序列可能结合的转录因子的预测结果,这个文件大小为114G,如果想下载到本地备用,下载时间就得取决于网速了。其实,如果只是一次性使用,完全可以利用工具从网站数据里面直接提取想要的数据,快捷省事。该文件格式为bigbed,即使下载到本地也没法直接操作,还是需要借助UCSC的小工具bigBedToBed来完成。

  1. 数据链接
      这个链接是人的数据,如果物种是小鼠的话,可以将链接中的hg38替换为mm10即可。其他物种有没有预测的结果,可以自行通过链接查阅。
    https://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb

  2. 数据内容
      bigbed本质上为二进制的bed格式,转化为文本类型的 bed后就可以直接查看了,里面包含的内容如下所示:

  1. score
      预测结果里面的score值,可以用来衡量结合的可能性,值越大越有可能结合。同时,UCSC也给出了scorepvaue对应关系,阈值越严格假阳性越少,大家可以根据实际情况自行决定。UCSC网站默认使用的score阈值为400。
  1. 工具链接
      UCSC的里面有很多专门用来处理各种数据格式的小工具。后面需要用到bigBedToBedbigWigAverageOverBed,可以提前下载好。
    http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64

  前面说过可以在线获取数据,下面我们就来演示一下如何利用工具获取想要的数据。将启动子序列在基因组上的位置带入类似下面的命令里面,即可得到所有可能结合的转录因子:

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb -chrom=chr1 -start=200000 -end=200400 hg38_transfactor.bed

  虽然已经得到结合的转录因子,但毕竟是算法预测的结果,结果多姑且不说,里面肯定也会有很多假阳性的结果。所以,还是得想办法利用一些其他的数据,如序列保守性、ChIP-seq结果来辅助过滤结果,缩小范围的同时提高结果的准确性。

进化保守性

  基因组序列的保守性指的是在进化中高度保持不变的序列或区域。一般来说,具有功能的基因或序列在不同物种之间的保守性更高,因为它们在漫长的进化过程中必须保持其功能。因此,基因组序列的保守性越强,越有可能是具有重要生物学功能的序列。但是,保守性并不是功能的唯一指标,一些非功能性序列也可能高度保守。phastConsphyloP都可以用来评估序列保守性,这里使用前者来评估。phastCons会给出一个0-1之间的score值,值越大保守性越高。

  UCSC里面已经有人的基因组序列与其他99种脊椎动物的保守性评估结果,咱们可以直接利用,数据链接如下:
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/phastCons100way/hg38.phastCons100way.bw

  咱们可以给每一个转录因子的结合区域计算一个平均保守性,然后利用这样值可以对结果进行过滤:

bigWigAverageOverBed hg38.phastCons100way.bw motif.bed out.tab

  使用上面的命令需要注意:输入的bed文件最少为4列,且第四列的ID不能有重复。评估结果里面包含以下内容:

cistrome

  cistrome网站搜录了很多转录因子和组蛋白的ChIP-seq结果。咱们可以借助该网站的数据来验证预测的转录因子结合位点,是否有真实的ChIP-seq数据支持。这样预测结果就更多了一点真实性的筛选条件。

  打开网站http://dbtoolkit.cistrome.org,会看到如下图所示的界面,输入基因组区间后提交,就会得到所有与区间有overlapChIP-seq结果。令人忧伤的是在线查询一次只能查询一个区间,如果需要查询很多的话就得另寻他径了。

  最后,展示一下预测结果的快照。有了这些信息,如果想挑一些转录因子来做实验验证的话,选择时就会多一点信心了。

结束语

  实验当然不是盲目的,开始前肯定会做一些调研,搜集的信息越多,可以参考的信息就越多,那么也就会获得更具有价值的结果。所以尽量多利用一些可用的公共数据,可谓是一个明智之举。最后,还是忍不住夸一下UCSC,作为一个数据库网站,里面着实有很多现成的可用数据,利用里面的数据可以达到事半功倍的效果。

往期回顾

Vision | scRNA细胞相似性 + 差异signature
HiC | contacts vs distance
hdWGCNA | 单细胞数据共表达网络分析
bed基因注释
scanpy踩坑实录

上一篇下一篇

猜你喜欢

热点阅读