基因结构注释人工矫正 - 实战过程记录
2022-12-13 本文已影响0人
生信石头
常见的电子注释错误问题挺多,比如UTR长度不对,缺少外显子内含子,边界有问题。没注释出来等等。这些就不做记录。此处主要记录一些有趣的问题
转录本距离过近,导致过度拼接
电子注释将两个距离较近,链性相同的位点注释成 1 个。一眼下去,可能会认为没问题。

实际问题有二:
- 如果两个转录本是串联,那么其中有两个外显子边界有问题
- 同源注释信息,都显示右边就是一个完整转录本,左边逻辑上是另一个
可以复制CDS看看比对结果。


有一些只在少数样品中表达

表达量并不低
contig11:3,746,889-3,760,635

转录本两端覆盖率较低,导致无法预测正确ORF


有一些位点直接没表达,或许其实是完全存在
直接基于文本预测

更比如

有时候一些位点,让我们很绝望

softberry 有次数限制

有些时候,必须要同源注释参考

水稻和拟南芥的注释不一定准确?

查看同源注释在其他物种上

没问题。那么就只能是当前物种的问题 contig12:449,363-458,339

同源注释比对可能会出现串联重复错误

可变剪切直接改变了 CDS

恩,没想到原注释有问题,侧面说明 最长 CDS 不一定是真正CDS
一个转录本?还是两个转录本?
View as Pair,是一个?问题来了,为什么会缺了一个外显子,也没有任何可变剪切的信号。答案必然是中间有一些reads完全无法匹配上


无解,怀疑就是回帖软件太辣鸡

类似的,还有很多。这类基本是回帖软件出了问题。当然,其实具体还是需要通过转录组数据查看。不过我暂时没时间折腾。


位点距离太近,两个拼成一个了

如果不是正反链的基因,那么会被直接拼成一个

典型串联重复

当外显子过短,内含子过长,注释会很差

类似的,裸子植物注释应该很难
二代数据无从判断是一个转录本还是三个

典型串联成重复

懒得拖拽,直接Augustus Predict一个

相邻同方向基因被注释成一个

水稻的注释确实有很多问题

肉眼常常是无法超过程序

串联重复很难处理


相邻基因被注释成 1 个了

类似串联重复被注释成一个

串联重复很难处理
缩小窗口,分区段 augustus (或主要针对已知蛋白同源区间)


有一些基因藏得很深

过拼接了


几个不错的工具
主要用于自动处理 GFF3 和 GTF ,或许还是有用的
http://genometools.org/index.html
https://agat.readthedocs.io/en/latest/how_to_cite.html