基因家族分析

如何使用SPDE进行基因家族分析---蛋白结构域、启动子元件、保

2021-10-07  本文已影响0人  许东

在进化树建完后,需要对序列的结构进行分析。这里需要区分两个概念,即蛋白结构域与保守结构域,它们两个不是一回事。从上一章,通过pfam方法同学们可以获得蛋白结构域的信息(即结构域的名字,从哪儿开始到哪儿结束),而保守结构域,它指的是在你所输入的这些序列中保守的序列是哪些。至于这些保守的序列到底能不能到蛋白结构域(即可以预测有功能的结构域)的那个层次还不好说。

保守结构域通过meme网站(MEME - Submission form (meme-suite.org)):

输入DNA或者蛋白文件

选择要检测出多少保守结构域

选择text格式:

接下来开始绘图:

需要基因id以及每个基因的长度(即输入到meme网站的那些~):

输入文件即是用于meme分析的那些

需要格式化meme的结果同时也需要这些基因的ID, ID的获取:

格式化meme:

这些文件都是自动完成,大家只需要点点点就好:

绘图:

点击draw

这样就完成了保守结构域的绘制。且每单击一次default colors, 颜色都会自动配置一次,然后再度点击draw即可完成颜色的更改。其他参数参照之前的说明。上一张图吧:

在上一章讲到的pfam的结果可用于提取蛋白结构域。建议同学们:如果你的文件里,基因名字过于复杂,就是含有额外信息,建议大家利用格式化的功能将这些额外去除掉,因为这些额外信息在后续的分析中基本不会用到但如果保留它们则会对后续的一些分析产生干扰。

格式化pfam文件

这里要注意一个问题,如果所研究的家族有多个结构域,需要依次对它们的pfam结果进行格式化。格式化的结果类似于这样:

格式化的结果

之后将该结果合并在一起(就是直接复制粘贴)以及上一步的基因ID+长度的那个文件输入作图模块中进行作图即可。

再就是启动子元件的展示。需要提取启动子序列,功能在这里:

执行此功能,同学们需要注意一个问题,就是你蛋白序列文件中的ID可能与gff3文件里的ID有出入,需要稍微调整,例如:

如上图

通过比较可以发现蛋白文件中的多了“.p” 而gff文件中的多了“.v1.ABR2.1”,因此需要进行替换(就是一定要保证蛋白文件中的ID与gff文件中mRNA那一行对应的ID是一样的),替换功能在这里:

当然,同学们如果不习惯用SPDE也可以用其他软件例如word替换,这里设置的替换功能,真正的用处是在执行多个关键词同时替换的时候,这种单个关键词的替换,完全展现不出威力~。替换完成后,如下:

这个文件将作为提取启动子的关键词。对基因组序列文件进行格式化:

提取的启动子如下:

将启动子放到plantcare(PlantCARE, a database of plant promoters and their cis-acting regulatory elements (ugent.be))进行启动子序列的分析。

这里有个点儿需要注意:一个基因的启动子上有很多元件,如果将这些元件都展示在启动子上会将图整的跟食品包装袋后的条码似的,这并不利于我们展示重点想要展示的东西,因此,这里需要同学们根据自己的实验目的进行删减,例如,如果同学们想要展示的是胁迫条件下的情况,则可以将一些无关元件(如TATA等)删除,只保留重点先要展示的,这样也使得我们的研究结果一目了然。具体操作步骤与之前相同:

结果:

启动子元件

接下来是展示内含子和外显子的分布情况,当然还是要先处理文件,需要的是基因ID和GFF文件:

得到的文件如下:

之后画图

嗯,大致是这样子的吧

同学们在做的时候如果基因数量多,大可考虑将这些基因分成几组展示~

上一篇下一篇

猜你喜欢

热点阅读