生信分析：转录因子分析-NP-小麦再生

2023-05-24 本文已影响0人我与生信

前一篇推送已经与大家分享了这篇发表在Nature Plants上的关于小麦再生的文章。涉及的生信分析非常丰富，其比较重要的是关于转录因子的分析。所以这次推送就其中重要的几项转录因子分析做一个教程。

一 TF注释

所谓注释，即我拿到一个基因，知道该基因属于什么TF家族，或者拿到一个TF家族，知道该家族包含哪些基因。

PlantTFDB和PlantRegMap是北京大学高歌课题组开始的目前使用最广泛的植物转录因子数据库，可以帮助我们方便快速的进行一系列转录因子分析。

图1

利用PlantTFDB数据库（http://planttfdb.gao-lab.org/index.php）对TF进行注释，该数据库已经对100多个物种进行了TF注释，如果我们研究的物种正好被注释且所选用的参考基因组一致，可直接下载。

按照图1标注的顺序即可下载该数据库已经做好的转录因子注释。

图2

若我们研究的物种没有被该数据库注释或者选用的参考基因组版本不一致（如自己组装了新的参考基因组），那么需要我们提供蛋白序列或核酸序列以从头注释，见图2标注。

图3 输出结果

二 TF富集分析

通过注释，我们知道了该物种的每一个基因ID对应了哪一个转录因子。下一步我们想知道我们关注的一部分基因是否显著富集到某个TF家族。

无论是什么类型的富集分析，其原理都是一样的。做过GO富集或者KEGG富集的应该知道，在做富集分析之前，我们需要准备至少两个文件：

1、基因的注释：对于GO富集，注释是指某个基因属于哪个GO通路；对于KEGG富集，注释是指某个基因属于哪个KEGG通过；对于TF富集，注释是指某个基因属于哪个TF家族。

2、关注的基因list

图4 该物种的TF注释（两列，家族名称+基因编号）

图5 目标基因集（一列，基因编号）

做富集分析最常用的是R包 clusterProfiler

图6 TF富集分析代码

输出结果可用于后续可视化，可视化形式及代码与基因功能富集分析一致，不再展示。

图7 词云图

在这篇文章中，作者用到了词云图，是一种更美观、直观的方式。该图也可以用R来完成。

图8 词云图输入文件

词云图的输入文件有两列，第一列是展示的词，第二列是词频，见图8.

在富集分析的输出结果中，Pvalue越小代表该TF家族越显著富集，所以Pvalue应与词频做一个转化以统一。

用到的R包是wordcloud2

图9 词云图代码

图10 词云图输出结果

图11

转录因子结合位点(Transcription factor binding site, TFBS)是与转录因子结合的DNA序列。当转录因子与DNA结合时，会组织Tn5的切割，从而在测序比对后会看到一个低测序深度区域（我们称之为转录因子的“足迹”），通过识别这个区域，我们可以找到TF发挥作用的潜在位点。

HINT（Hmm-based IdeNtification of Transcription factor footprints）是用鉴定足迹的常用方法，也是本文使用的软件。HINT是RGT软件的一项功能，软件主页

软件主页 https://reg-gen.readthedocs.io/en/latest/，这里有对该软件最详细的介绍，如果想深入学习可以去看一下。

利用HINT软件通过ATAC-seq数据鉴定转录因子足迹，输入文件是ATAC-seq数据的bam文件和pake文件（bed），输出文件是鉴定到的足迹（bed）