注释和富集

GFAP---Alignment模块

2021-09-13  本文已影响0人  许东

Alignment,即比对。这是在进行所有功能注释几乎都要进行的一步。如下图所示:

Alignment模块

如图所示,该模块可分为三个大的区域。事实上,做出软件功能只是最后一步,先期需要构建数据库。本次的数据库构建是以查找蛋白结构域为基础的。所以在比对环节,我强烈建议同学使用蛋白序列进行比对。那么,有同学就要说了,我这边没有蛋白序列怎么办?第二大区域可以帮助同学们将的DNA序列批量翻译成蛋白序列,当然,这里有一个小的前提,那么就是你需要保证你的DNA序列长度是三的倍数,至于为什么,这里就不做过多介绍了(不需要刻意看,如果不是三的倍数,翻译的结果中会有提示)。当然,在这种情况下,有些同学可能仍然无法得到蛋白序列,这个时候就不得不用DNA进行比对了。如果是这种情况,需要同学们到数据库网站下载相应物种的DNA数据(该数据正在完善中,十一前可以完成)。可以点击此按钮,连接到网站:

点击按钮连接网站

做了基本介绍后,下面,我介绍具体功能使用:

相应功能

第一个需要放入你的蛋白文件,老规矩,文件格式为fasta格式,可以采用拖拽的形式放入文件。第二框是选择你需要比对的物种,括号中是它所在科的名字,可以根据你物种所在的科进行选择。第三个框是非必须选项框。它所规定的是evalue值。本软件采用的比对内核是diamond程序,这个程序与传统的blast相比,它的速度更快、准确性更高,但正是由于准确性太高,有的时候有可能导致一些假阴性情况,也就是说可能有些基因没有比对或者注释上,如果同学们感觉比对的太少,可以通过提高evalue值来进行改善(默认evalue为1e-5)。再就是保存位置以及命名等,完成后点击“align”就好。在这里需要和同学们说一下,如果界面显示未响应,这个时候不要慌,那是软件在计算不是真的未响应。

翻译功能

因为同学们手里的DNA文件可能在格式上会多少有些差别,所以需要同学们在放入文件后先进行一下格式化(format),不要担心,当功能完成格式化的文件将会自动删除,不会占用同学们过多的电脑空间。然后,设置一下比对的路径并对结果进行命名即可,点击“translate”就可以进行批量翻译。

第三个是DNA比对:

DNA比对

基本操作还是和先前一样。再声明一下,DNA数据库正在处理,会在十一前完成。点击第一个按钮会连接到数据库(https://gitee.com/simon198912167815/gafp-database)

DNA数据库的位置

下载好了之后,同学们需要将下载的库放入到GAFP安装位置的database里,解压与不解压都可以

放入数据库的位置

小贴士:这个位置也是放入蛋白数据库的位置。我一直在想办法解决数据库的大小问题,但涉及到的物种很多,好像就是缩小也缩不到哪里去,这样的话,我将选择权交给同学们,这个文件夹里的物种从藻类到苔藓,地衣,以及裸子和被子植物。如果同学们确定你肯定不需要哪些物种,你可以考虑把这些物种直接从该文件夹删除。

上一篇下一篇

猜你喜欢

热点阅读