利用UCSC预测启动子序列可能结合的转录因子

2023-05-11 本文已影响0人生信云笔记

日常瞎掰

一个启动子序列如何预测其可能结合的转录因子呢？最近就接到了这么一个任务，预测一段人的启动子序列可能结合的转录因子。任务并不难，也可以选择用homer2、MEME等软件来预测，这里不做讨论。其实，UCSC里面已经包含了一些模式生物如人、小鼠等基因组序列的转录因子结合预测结果，咱们直接利用就完了。

UCSC

UCSC网站里面包含了很多有用的数据，尤其是人和小鼠。下面的链接就是人基因组序列可能结合的转录因子的预测结果，这个文件大小为114G，如果想下载到本地备用，下载时间就得取决于网速了。其实，如果只是一次性使用，完全可以利用工具从网站数据里面直接提取想要的数据，快捷省事。该文件格式为bigbed，即使下载到本地也没法直接操作，还是需要借助UCSC的小工具bigBedToBed来完成。

数据链接
这个链接是人的数据，如果物种是小鼠的话，可以将链接中的hg38替换为mm10即可。其他物种有没有预测的结果，可以自行通过链接查阅。
https://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb
数据内容
bigbed本质上为二进制的bed格式，转化为文本类型的 bed后就可以直接查看了，里面包含的内容如下所示：

score
预测结果里面的score值，可以用来衡量结合的可能性，值越大越有可能结合。同时，UCSC也给出了score与pvaue对应关系，阈值越严格假阳性越少，大家可以根据实际情况自行决定。UCSC网站默认使用的score阈值为400。

工具链接
UCSC的里面有很多专门用来处理各种数据格式的小工具。后面需要用到bigBedToBed、bigWigAverageOverBed，可以提前下载好。
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64

前面说过可以在线获取数据，下面我们就来演示一下如何利用工具获取想要的数据。将启动子序列在基因组上的位置带入类似下面的命令里面，即可得到所有可能结合的转录因子：

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb -chrom=chr1 -start=200000 -end=200400 hg38_transfactor.bed

虽然已经得到结合的转录因子，但毕竟是算法预测的结果，结果多姑且不说，里面肯定也会有很多假阳性的结果。所以，还是得想办法利用一些其他的数据，如序列保守性、ChIP-seq结果来辅助过滤结果，缩小范围的同时提高结果的准确性。

进化保守性

基因组序列的保守性指的是在进化中高度保持不变的序列或区域。一般来说，具有功能的基因或序列在不同物种之间的保守性更高，因为它们在漫长的进化过程中必须保持其功能。因此，基因组序列的保守性越强，越有可能是具有重要生物学功能的序列。但是，保守性并不是功能的唯一指标，一些非功能性序列也可能高度保守。phastCons、phyloP都可以用来评估序列保守性，这里使用前者来评估。phastCons会给出一个0-1之间的score值，值越大保守性越高。

UCSC里面已经有人的基因组序列与其他99种脊椎动物的保守性评估结果，咱们可以直接利用，数据链接如下：
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/phastCons100way/hg38.phastCons100way.bw

咱们可以给每一个转录因子的结合区域计算一个平均保守性，然后利用这样值可以对结果进行过滤：

bigWigAverageOverBed hg38.phastCons100way.bw motif.bed out.tab

使用上面的命令需要注意：输入的bed文件最少为4列，且第四列的ID不能有重复。评估结果里面包含以下内容：

name - name field from bed, which should be unique
size - size of bed (sum of exon sizes
covered - # bases within exons covered by bigWig
sum - sum of values over all bases covered
mean0 - average over bases with non-covered bases counting as zeroes
mean - average over just covered bases

cistrome

cistrome网站搜录了很多转录因子和组蛋白的ChIP-seq结果。咱们可以借助该网站的数据来验证预测的转录因子结合位点，是否有真实的ChIP-seq数据支持。这样预测结果就更多了一点真实性的筛选条件。

打开网站http://dbtoolkit.cistrome.org，会看到如下图所示的界面，输入基因组区间后提交，就会得到所有与区间有overlap的ChIP-seq结果。令人忧伤的是在线查询一次只能查询一个区间，如果需要查询很多的话就得另寻他径了。

最后，展示一下预测结果的快照。有了这些信息，如果想挑一些转录因子来做实验验证的话，选择时就会多一点信心了。

结束语

实验当然不是盲目的，开始前肯定会做一些调研，搜集的信息越多，可以参考的信息就越多，那么也就会获得更具有价值的结果。所以尽量多利用一些可用的公共数据，可谓是一个明智之举。最后，还是忍不住夸一下UCSC，作为一个数据库网站，里面着实有很多现成的可用数据，利用里面的数据可以达到事半功倍的效果。

往期回顾

Vision | scRNA细胞相似性 + 差异signature
HiC | contacts vs distance
hdWGCNA | 单细胞数据共表达网络分析
 bed基因注释
 scanpy踩坑实录