以「同源蛋白」为参考，高效提升「基因结构注释」质量

2022-12-06 本文已影响0人生信石头

虽然，我在 IGV 的基础上，优化增强，并开发了 IGV-GSAman，但其实我也就前几天才认认真真自己用了下，也做了不少优化。大体上，应该是花了两三天时间，优化了20Mb*3 ，一共三条染色体的基因结构注释。
当然，我们知道，二代测序数据，更或者是三代测序数据从某个角度来说是最优标准？但也有不少时候，二代数据根本看不清楚，而三代测序数据（转录本完整度OK，可是覆盖率低）常常测不到不少位置的转录本。
于是，往往会出现下述类似情况（其中橙色为拟南芥或和水稻比对到当然参考基因组的gff3结果）

此时，二代数据来看，很可能两个转录本，在原始电子注释中，只注释出左边的部分。而同源蛋白注释（水稻或者拟南芥）则表示，这里应该是一个蛋白。所以准确的注释是一个蛋白，而不是两个基因。当然，这个是比较简单的情况。
很多时候，当一个位点的可变剪切模式过多的时候，或者两个位点靠得非常近，同源蛋白注释可以告诉我们，这是两个基因，不是一个基因。而二代测序数据，不行。
更比如下面这个位点，其实也是一个。那么为什么中间二代测序数据会突然下降，一个是错配问题，事实上，我们猜测是 hisat2 在这块有小bug，提议用 STAR 。另外，这个位点是原来没有注释出来的，同源注释也让我们更明确，这就是一个可信的coding位点。

更或者这种时候，我们会更明确，其实中间有一个靠谱的蛋白需要我们去注释出来。

那么问题来了，我们如何得到一个「同源蛋白比对到当前物种基因组的 GFF3 文件」？答案就是lh3大神前面发表的一个软件工作「miniprot」。这个软件可以很快将蛋白序列比对到基因组序列上，快速重构出GFF3。感觉非常不错。使用起来也非常简单，其实就是一个命令

miniprot -t 4 --gff ref.genome.fa query.prot.faa > out.gff3

当然，尽管只是一个命令，用起来还是不太方便。比如我还是看了一下manual，（或者说，以前我用过了，每次我还要看manual）。同时呢，不少朋友其实就没有服务器....在本地比如windows上跑起来不太方便。于是我想了想，方便以后操作，干脆做一个界面化功能出来。

用 TBtools 的「CLI Program Wrapper Creator」快速界面化已有软件

我完全没想到，整体使用非常简单，感兴趣的朋友可以参考之前的视频教程，

前后居然不到 10min，我相信，就算我自己来 Coding 一个出来，也不知道要写是不是大半个小时。同时还要debug。但是现在，我一遍过，导出来就是一个「实用插件」直接可以上架到 TBtools 的 Plugin Store....
太强了！

写在最后

Emmm，还是欢迎大伙一起来做做一些插件。一定要相信，有些事情，真的可以一劳永逸！

以「同源蛋白」为参考，高效提升「基因结构注释」质量

用 TBtools 的「CLI Program Wrapper Creator」快速界面化已有软件

写在最后

猜你喜欢

热点阅读