利用UCSC预测启动子序列可能结合的转录因子
日常瞎掰
一个启动子序列如何预测其可能结合的转录因子呢?最近就接到了这么一个任务,预测一段人的启动子序列可能结合的转录因子。任务并不难,也可以选择用homer2
、MEME
等软件来预测,这里不做讨论。其实,UCSC
里面已经包含了一些模式生物如人、小鼠等基因组序列的转录因子结合预测结果,咱们直接利用就完了。
UCSC
UCSC
网站里面包含了很多有用的数据,尤其是人和小鼠。下面的链接就是人基因组序列可能结合的转录因子的预测结果,这个文件大小为114G,如果想下载到本地备用,下载时间就得取决于网速了。其实,如果只是一次性使用,完全可以利用工具从网站数据里面直接提取想要的数据,快捷省事。该文件格式为bigbed
,即使下载到本地也没法直接操作,还是需要借助UCSC
的小工具bigBedToBed
来完成。
-
数据链接
这个链接是人的数据,如果物种是小鼠的话,可以将链接中的hg38
替换为mm10
即可。其他物种有没有预测的结果,可以自行通过链接查阅。
https://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb -
数据内容
bigbed
本质上为二进制的bed
格式,转化为文本类型的bed
后就可以直接查看了,里面包含的内容如下所示:
- score
预测结果里面的score
值,可以用来衡量结合的可能性,值越大越有可能结合。同时,UCSC
也给出了score
与pvaue
对应关系,阈值越严格假阳性越少,大家可以根据实际情况自行决定。UCSC
网站默认使用的score阈值为400。
- 工具链接
UCSC
的里面有很多专门用来处理各种数据格式的小工具。后面需要用到bigBedToBed
、bigWigAverageOverBed
,可以提前下载好。
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64
前面说过可以在线获取数据,下面我们就来演示一下如何利用工具获取想要的数据。将启动子序列在基因组上的位置带入类似下面的命令里面,即可得到所有可能结合的转录因子:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb -chrom=chr1 -start=200000 -end=200400 hg38_transfactor.bed
虽然已经得到结合的转录因子,但毕竟是算法预测的结果,结果多姑且不说,里面肯定也会有很多假阳性的结果。所以,还是得想办法利用一些其他的数据,如序列保守性、ChIP-seq
结果来辅助过滤结果,缩小范围的同时提高结果的准确性。
进化保守性
基因组序列的保守性指的是在进化中高度保持不变的序列或区域。一般来说,具有功能的基因或序列在不同物种之间的保守性更高,因为它们在漫长的进化过程中必须保持其功能。因此,基因组序列的保守性越强,越有可能是具有重要生物学功能的序列。但是,保守性并不是功能的唯一指标,一些非功能性序列也可能高度保守。phastCons
、phyloP
都可以用来评估序列保守性,这里使用前者来评估。phastCons会给出一个0-1之间的score值,值越大保守性越高。
UCSC
里面已经有人的基因组序列与其他99种脊椎动物的保守性评估结果,咱们可以直接利用,数据链接如下:
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/phastCons100way/hg38.phastCons100way.bw
咱们可以给每一个转录因子的结合区域计算一个平均保守性,然后利用这样值可以对结果进行过滤:
bigWigAverageOverBed hg38.phastCons100way.bw motif.bed out.tab
使用上面的命令需要注意:输入的bed文件最少为4列,且第四列的ID不能有重复。评估结果里面包含以下内容:
- name - name field from bed, which should be unique
- size - size of bed (sum of exon sizes
- covered - # bases within exons covered by bigWig
- sum - sum of values over all bases covered
- mean0 - average over bases with non-covered bases counting as zeroes
- mean - average over just covered bases
cistrome
cistrome
网站搜录了很多转录因子和组蛋白的ChIP-seq
结果。咱们可以借助该网站的数据来验证预测的转录因子结合位点,是否有真实的ChIP-seq
数据支持。这样预测结果就更多了一点真实性的筛选条件。
打开网站http://dbtoolkit.cistrome.org,会看到如下图所示的界面,输入基因组区间后提交,就会得到所有与区间有overlap
的ChIP-seq
结果。令人忧伤的是在线查询一次只能查询一个区间,如果需要查询很多的话就得另寻他径了。
最后,展示一下预测结果的快照。有了这些信息,如果想挑一些转录因子来做实验验证的话,选择时就会多一点信心了。
结束语
实验当然不是盲目的,开始前肯定会做一些调研,搜集的信息越多,可以参考的信息就越多,那么也就会获得更具有价值的结果。所以尽量多利用一些可用的公共数据,可谓是一个明智之举。最后,还是忍不住夸一下UCSC
,作为一个数据库网站,里面着实有很多现成的可用数据,利用里面的数据可以达到事半功倍的效果。
往期回顾
Vision | scRNA细胞相似性 + 差异signature
HiC | contacts vs distance
hdWGCNA | 单细胞数据共表达网络分析
bed基因注释
scanpy踩坑实录