生物信息学遗传调控我爱

植物启动子-顺势作用元件-批量提取-预测-可视化分析

2018-10-14 本文已影响423人生信石头

写在前面

以前总看到问题是，基因结构可视化的问题；现在则变成了启动子元件的预测或者说可视化。这本身比较简单，也比较玄乎，所以我一直不是太乐意与别人讨论。但学院今天断网，手上的工作无法正常开展。正好有旧友也问起，那么我就写写。
其实，有了TBtools，这些分析，所有人都可以极其快速的完成

顺势作用元件分析的顾虑

之所以说这个分析玄乎，在于他真的玄乎。顺势作用元件，基于其定义，并不一定就是启动子区域，也可以在内含子里面，还可以在邻近的基因里面。所以他跟启动子似乎并没有直接关系。只是，启动子从定义上来谈，就是RNA聚合酶（如pol II）被招募并结合的区域附近。这一区域应是有较多的转录因子（反式作用因子）和转录调节子，所以自然是存在较多的顺势作用元件。
说到这里，那么启动子区域的边界如何确定，又是玄乎的事情。几乎所有物种里面的UTR注释都是不全的，即使是拟南芥或者水稻，更或者人类。原因有很多。再从另一个方面来说。即使是同一个基因（locus），不同的转录本会有不同的转录起始位点，那么这个时候，哪一个TSS之上是所谓真实的启动子？
总而言之，存在一个约定俗成（也就是大家都是看破不说破）的做法，取翻译起始密码子（ATG）上游1kb，或者2kb，或者更长一些。那么本文的做法就是，取2kb（注意，这个做法明显就是会包括一些UTR，然而似乎没有更好的做法）

实践一番

1.提取所有基因的启动子区域

首先是准备好输入文件

基因组序列，即fasta序列
基因结构注释信息，如gff文件

image.png

打开TBtools，使用gff3 序列提取工具，并设置到，只提取CDS上游2000bp的参数，如下

image.png
于是得到了拟南芥所有基因的CDS上游2kb（已经自动处理正反链）

2.提取目标基因集合的启动子序列

这一步比较简单，直接使用TBtools

image.png

查看下提取出来的文件信息是否正确

image.png
数目没错，长度没错，不过都是小写的。

3.将序列全部转换成大写

image.png

4.提交到PlantCare网站进行顺势作用元件预测

http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

image.png
设置邮箱，选择要上传的文件（如果超过100kb，就用TBtools的Fasta Split 分割文件，逐个提交），点击上传，静等邮件

image.png

4. 整理和简化PlantCare分析结果

大概过了15min之后，邮箱提示收到邮件，是一个压缩包，解压即是
每一个序列对应了一个网页可交互的结果，而我们直接查看汇总文件即可

image.png
使用Excel打开，基于表格中的信息，如最后一列，筛选并保留有一定查看目的元件，如响应类元件

image.png
筛选后

image.png
剩下900多个元件，还是很多，接下来充分利用Excel的筛选工具（或者自己手动逐个修改）将同一类的响应类元件给与同样的标签，大概花了10来分钟....

image.png
接下来整理成适合于TBtools可视化的文本信息

image.png

5.使用TBtools对顺势作用元件进行可视化

首先需要准备一个序列长度文件，所有都是2000bp的启动子序列

image.png
随后是使用上一步得到的顺势作用元件位置信息，打开TBtools进行可视化

image.png
设置输入信息

image.png
点击Start即可得到图片...不过默认输出的图片有点长，基于JIGplot的特点，自己拖拽几下即可得到下图

image.png
可以看到，似乎有一个序列是AT1G35240.1带有明显增多的生长素响应元件？！具体生物学问题还是看做这个家族的人了。

6. 进化往往能告诉我们更多信息

于是我们把基于蛋白序列做的进化树也加上去
然后，如果你对TBtools的JIGplot引擎熟悉的话，直接用panelEditor调整两个Panel即可，如果不熟悉，那就。。。手动拖吧
可以得到下图

image.png

如果关注某个元件，如生长素响应，或者其他？

image.png
从预测结果来看？有部分ARF不受Auxin的直接诱导？少数的ARF可能会收到强烈有道？

写在最后

没想到，整理完这个教程花了一个来小时...
希望明天网络恢复正常。

上一篇下一篇

猜你喜欢

热点阅读