都2020年了,我不允许你不会用phytozome数据库
嗨嗨,好久不见,太久没有更新啦。前几天和老师讨论实验的时候,他提到了这个数据库挺方便,之前只是听说过,没有研究过怎么用,回来之后我就仔细看了下,今天顺便记录一些基本操作哈。
首先,phytozome是一个收录了植物基因组的数据库和在线工具,注释信息、基因组数据的获取、可视化浏览都十分方便。
1.数据下载
作为一个数据库,其最最主要的功能就是提供 数据的下载 ,作为一个有原则的网站,phytozome要求你注册后才能下载它的数据,所以乖乖注册。

选择你需要的物种,以拟南芥为例,annotation 注释文件夹,assembly 组装文件夹。

不清楚这些文件是干啥的,请翻阅往期文章:
2.批量提取基因序列
选择物种应该不用多说,比较方便的是 keywords 部分可以输入基因功能,家族名称,某个结构域等等都可以,然后GO。



3.单个基因检索
主页Tools——Keywords search——选家族(可自行输入或点选下方树状图),输入关键词,GO。

于是我们先来看看基本信息,点G。

1.Functional Annotation:根据Pfam数据库呈现出蛋白结构域等部分。
2.Genomic:该基因在基因组上的位置,可视化一下外显子内含子啥的。
3.Sequences:这一部分我个人觉得挺有用,UTR等位置都标注的很清楚。
4.Protein Homologs:同源蛋白,显示该蛋白在其他物种里的一些同源蛋白及其基本信息等,起码和NCBI比起来,这个网站速度快很多哈。
5.Gene Ancestry:基因进化相关信息等。
6.Expression:可以查看该基因收录在不同文献中的表达情况(expression),还可以查看与该基因呈现共表达情况的相关基因(coexpression),correlation则表示共表达程度,非常好用。
至于点击B,就可以直接看到基因可视化信息,如下图,放大缩小啥的自己多点点就明白了。

4.启动子序列的获取
在上一步的3.sequences中点开Genomic sequence,输入你需要的长度参数,可以直接获取上下游序列。

5.Blast查找同源基因或者检测引物特异性
可参考文章:论引物特异性的重要性,顺便带你看懂花花绿绿的结果,方法大同小异,相信你能搞定。
最后,如果没看明白本教程还可以直奔网课:植物基因组数据库Phytozome,讲的非常详细,五块钱,两人一起好像一块钱,买它买它买它(无利益关系,单纯推荐哈