生信分析:转录因子分析-NP-小麦再生
前一篇推送已经与大家分享了这篇发表在Nature Plants上的关于小麦再生的文章。涉及的生信分析非常丰富,其比较重要的是关于转录因子的分析。所以这次推送就其中重要的几项转录因子分析做一个教程。
![](https://img.haomeiwen.com/i29082198/dd4a5876d1cdddf0.png)
一 TF注释
所谓注释,即我拿到一个基因,知道该基因属于什么TF家族,或者拿到一个TF家族,知道该家族包含哪些基因。
PlantTFDB和PlantRegMap是北京大学高歌课题组开始的目前使用最广泛的植物转录因子数据库,可以帮助我们方便快速的进行一系列转录因子分析。
![](https://img.haomeiwen.com/i29082198/9e7ebfaad4be7000.png)
图1
利用PlantTFDB数据库(http://planttfdb.gao-lab.org/index.php)对TF进行注释,该数据库已经对100多个物种进行了TF注释,如果我们研究的物种正好被注释且所选用的参考基因组一致,可直接下载。
按照图1标注的顺序即可下载该数据库已经做好的转录因子注释。
![](https://img.haomeiwen.com/i29082198/e9539f2334dae98e.png)
图2
![](https://img.haomeiwen.com/i29082198/1060a10f607c08fa.png)
图2
若我们研究的物种没有被该数据库注释或者选用的参考基因组版本不一致(如自己组装了新的参考基因组),那么需要我们提供蛋白序列或核酸序列以从头注释,见图2标注。
![](https://img.haomeiwen.com/i29082198/7fd79a054df4f740.png)
图3 输出结果
![](https://img.haomeiwen.com/i29082198/abd8356427c3cabe.png)
二 TF富集分析
通过注释,我们知道了该物种的每一个基因ID对应了哪一个转录因子。下一步我们想知道我们关注的一部分基因是否显著富集到某个TF家族。
无论是什么类型的富集分析,其原理都是一样的。做过GO富集或者KEGG富集的应该知道,在做富集分析之前,我们需要准备至少两个文件:
1、基因的注释:对于GO富集,注释是指某个基因属于哪个GO通路;对于KEGG富集,注释是指某个基因属于哪个KEGG通过;对于TF富集,注释是指某个基因属于哪个TF家族。
2、关注的基因list
![](https://img.haomeiwen.com/i29082198/89bc437f8ae701fa.png)
图4 该物种的TF注释(两列,家族名称+基因编号)
![](https://img.haomeiwen.com/i29082198/1a907bb40fdcb8b6.png)
图5 目标基因集(一列,基因编号)
做富集分析最常用的是R包 clusterProfiler
![](https://img.haomeiwen.com/i29082198/ad6d2877717377fe.png)
图6 TF富集分析代码
输出结果可用于后续可视化,可视化形式及代码与基因功能富集分析一致,不再展示。
![](https://img.haomeiwen.com/i29082198/67c4da3384e4798b.png)
图7 词云图
在这篇文章中,作者用到了词云图,是一种更美观、直观的方式。该图也可以用R来完成。
![](https://img.haomeiwen.com/i29082198/5a88343181e46f78.png)
图8 词云图输入文件
词云图的输入文件有两列,第一列是展示的词,第二列是词频,见图8.
在富集分析的输出结果中,Pvalue越小代表该TF家族越显著富集,所以Pvalue应与词频做一个转化以统一。
用到的R包是wordcloud2
![](https://img.haomeiwen.com/i29082198/88f76233aba93096.png)
图9 词云图代码
![](https://img.haomeiwen.com/i29082198/9dcb128eb1ac51fa.png)
图10 词云图输出结果
![](https://img.haomeiwen.com/i29082198/2d5bd5c39c47b12b.png)
![](https://img.haomeiwen.com/i29082198/a8670e5d63a2c90d.png)
图11
转录因子结合位点(Transcription factor binding site, TFBS)是与转录因子结合的DNA序列。当转录因子与DNA结合时,会组织Tn5的切割,从而在测序比对后会看到一个低测序深度区域(我们称之为转录因子的“足迹”),通过识别这个区域,我们可以找到TF发挥作用的潜在位点。
HINT(Hmm-based IdeNtification of Transcription factor footprints)是用鉴定足迹的常用方法,也是本文使用的软件。HINT是RGT软件的一项功能,软件主页
软件主页 https://reg-gen.readthedocs.io/en/latest/,这里有对该软件最详细的介绍,如果想深入学习可以去看一下。
利用HINT软件通过ATAC-seq数据鉴定转录因子足迹,输入文件是ATAC-seq数据的bam文件和pake文件(bed),输出文件是鉴定到的足迹(bed)
![](https://img.haomeiwen.com/i29082198/56f2b4fdd702fbb1.png)
1、安装RGT pip install --user RGT --no-binary RGT
![](https://img.haomeiwen.com/i29082198/1a817a9fba889eec.png)
2、配置基因组
![](https://img.haomeiwen.com/i29082198/cd33b4354edef1b8.png)
图12
该软件内置了人类、小鼠、斑马鱼、牛以及拟南芥的基因组,如果选用其他物种,需要自己仿照格式在~rgtdata/下构建好相应基因组文件,如本文用到的小麦,具体可参考https://reg-gen.readthedocs.io/en/latest/rgt/setup_data.html
![](https://img.haomeiwen.com/i29082198/f82c50ea4e32b513.png)
3、运行HINT
rgt-hint footprinting --atac-seq SampleName.bam SampleName_peaks.narrowPeak --output-location=./test --output-prefix=./test --organism=test
注意:默认情况下,HINT对ATAC-seq执行偏差校正,因此必须使用正确的基因组信息,即加入正确的—organism
输出.info文件(统计信息)和.bed文件(足迹的位置)
![](https://img.haomeiwen.com/i29082198/4d0427e925334fe6.png)
四 鉴定TF与靶基因的对应关系
这篇文章中提到,只考虑了落在基因区和启动子处的ATAC-seq 峰,所以鉴定转录因子足迹,实际上是在找潜在的被TF调控的基因。下一步需要结合已知的TF的结合motif把TF与靶基因对应起来。
比较简单的方法可以利用PlantRegMap进行预测。
通过上面的预测可以获得TF与靶基因的对应关系,再结合转录水平进行筛选即可构建出相应的转录调控网络。
![](https://img.haomeiwen.com/i29082198/d201f55941e3ac76.png)
图13
本文使用 文章同步助手 同步
欢迎关注“我与生信”,定期分享生信相关文献,并分享文献中生信分析技能。