「IGV-GSAme」基因结构注释信息-人工矫正-神器
IGV-Gene Structure Annotation Manual Editor,简称IGV-GSAme
写在前面
igv是目前最常用的本地基因组浏览器,与其开发的目标类似,用于整合各种类别的高通量测序数据。当然,他的功能不可能覆盖到高通量测序数据分析的方方面面。在很久以前,我们改造并正式推出了「IGV-sRNA」。这个浏览器的帮助下,我们进一步完善了小RNA预测流程和判断标准,同时也极大地提高了全基因组小RNA鉴定的速度以及质量【拒绝反驳!】。
小RNA的事情已经告一段落,课题组的分析重点开始覆盖到基因组分析。那么会涉及到两个问题:一是基因组组装效果如何?二是基因结构注释效果如何?。两者都会影响到后续基因组分析的正确与否。
其中,对于下游用户,往往基因结构注释影响更大,毕竟多数人的研究还是一个到数个基因上。从最常见的转录组数据分析来说,错误的基因结构注释,只能让你得到错误的表达量估计,更不谈差异表达基因。当然,基因结构注释还影响到比较基因组等诸多方面的工作开展。
这是为什么我在前述写过一篇推文,大体题目是《矫正基因结构注释 - 做良心的基因家族分析》。
本次,我没有放出错误基因结构注释的效果图
因为我已经明白,我们不需要让所有人都知道;因为知道的和想知道的都会知道,剩余的人则不需要知道。
为什么基因结构注释总是存在问题?
无解!生物学是复杂的,而算法的覆盖总是有限的。在完美的算法都可能会存在或多或少的问题。在这种情况下,人工观测并进行校正,可能是最好的方式。
如何进行人工结构注释矫正
目前得到评价最好的只有一款软件「Apollo」,即「Web Apollo」和「Apollo」。这款软件改造于JBrowse改造的,所以是一个网页端的工具。从其论文来看,前端Js,后端sql。一旦涉及到数据库,那么就注定了这款软件存在安装难度。
虽然我开始认为,软件难以安装,可以从某种层面上筛选掉多数用户,从而使得软件最终使用者多数为能够并愿意折腾的。或者说,我以前应该是做错了,不应该通过开发软件来降低分析门槛,因为对于多数人来说,可能不要自己进行分析,而是通过科研服务或者课题合作来完成分析项目,是更好的方法?
不过无论如何,我错了,那么是相对于我开发的软件的一部分用户而言的,对我自身来说,或者是磨炼技能,或者是挑战自我能力极限,或者是制作一把更好用的斧头,所以我自身并没有错。
前述,我再次修改了IGV,做了一次间接的支持,使得用户可以通过自定义的区间,导出一个bed文件并转化为gff3文件。这个功能当然能用,但是他存在一些问题:
- IGV的「Region Of Interest」工具选择区间后,无法调整起始或终止坐标
- 区间结果需要导出再导入,才能看到效果
- 对于已有的注释信息,不能直接人工调整,只能从头制备一个基因结构注释
- 更新的注释信息,需要后续人为替换原始gff3文件信息
当然,问题还有很多。在推出这个功能之后,课题组提议,安装Apollo。主要的观点是,改造后的IGV用起来不够灵活。其实,我是赞同安装Apollo的,毕竟这是一款实用无差评的工具【当然安装就不提了...】。所以我是推荐安装,并希望由师弟去安装,从某种角度来说,这是一个锻炼机会;从另一个角度来说,我也完全没把握能够在一两天内安装上,即使Apollo其实有docker镜像。
无论如何,这个安装的事情已经明确地安排给一个师弟了,这当然也是我个人的期望之一。但是我仍然不认为我改造的IGV会不够灵活。很快,我花了大半个晚上,重新阅读了IGV的一些实现逻辑,做了一次简单的调整,支持了鼠标拖拽调整ROI。
支持了ROI拖拽,事实上,解决了一个比较大的痛点。师弟师妹用起来也挺开心的。于是他们用去矫正了一些基因结构,目前没发现问题。原本我是计划到此为止。但是,问题来了!我自己也要矫正一批基因结构注释,第一点解决了,但是第二点,第三点,第四点是让我崩溃的事情。我并不是一个喜欢机械性重复工作的人。
使用不够好用的工具,我不会觉得开心。于是,我计划用两天的时间,做最后一次尝试,直接修改IGV,至少解决剩余的三个问题。
两天之后的晚上,我发现我失败了!不仅如此,我开始怀疑我一开始的决定,我从一开始就不应该直接改IGV的已有的Track,而应该重新设计一个Track....
但是两天已经过去了,我已经决定放弃。但还是厚颜无耻地再坚持了一天。也终于,在第三天的晚上,我达成了所有的目标。改造后的IGV,能做的事情比较多。于是我给他取了一个新的名字,这个就叫做IGV-Gene Structure Annotation Manual Editor,简称IGV-GSAme。
IGV-GSAme的特性
所有的功能直接在 IGV 的 GFF3 Track中支持,人工矫正基因结构注释,所见即所得!
1. 调整外显子的长度
2. 删除错误的外显子
在这个操作之后,其实CDS已经有变化,所以我们需要重新预测CDS
3. 原地重新预测CDS
重新预测CDS的时候,我们会发现第一个CDS相比于原来的有一点点的左移,因为那个才是整整的ATG。我们可以点击一下CDS,然后黏贴对应的CDS到TAIR数据库,BlastX就会发现,矫正后的才是完全正确的基因。矫正前的是过度拼接或者错误注释。
4. 删除错误注释的转录本
** 5. 添加缺失的外显子**
** 6. 添加新的转录本**
有时候,直接是基因没被注释出来,于是,我们要添加船新的转录本。
经过一份修饰,比如拖拽外显子,添加外显子,对齐剪切边界等等
我们终于得到了新的转录本结构。可以进行Blast确定其是否有可能是编码基因。确定之后,我们可以原地预测CDS。
点击一下这个CDS,随后跟已知基因进行比对。
于是,可以确定这是一个真实存在的编码基因。
7. 导出人工修正后的GFF3文件
导出的GFF3,是调整之后的gff3完全版。这意味着,你在IGV中看到的是什么,那么你得到的GFF3文件内容就有什么。或者应该说,是真正意义上的所见即所得。
我们可以重新导入原始的GFF3文件,和导出刚才导出的GFF3文件,做一下对比
写在后面
写完这个功能。感触比较深:
- IGV设计逻辑,必然久经考验,当然源码中不乏有"I don't why..."或者"It shouldn't happen..."等类似的注释,可见coding的人的痛苦
- IGV当然强大,但仍然存在不少可优化的空间
- 支持人工矫正注释的操作,应该直接理解逻辑后新设计一个Track,而不是在已有的Feature Track上进行修改,因为这样确实不是一个优雅或者说最有效的方式。
- 不爽,坚持,失败,放弃?再坚持一会,放弃?再坚持一会。于是在超时一天之后,我还是在错误的路子上实现了自己想要的效果。效果是一样的,谁会真正去在意你的实现方式?
最后,继续祝各位科研顺利。