snpEff注释结果各区域统计之和大于变异总数?

2021-08-19  本文已影响0人  生物信息与育种

问题一:各区域注释之和大于变异总数?

snpEff的结果很简单,但常常遇到如下问题。
我的SNP总数:


image.png

但是,注释的exon、intron和intergenic之和2,278,570就已经大于了总SNP数。

image.png

我大概能知道是什么原因。一个snp会落在多个基因上,所以既有可能落在exon,又有可能落在intron区,最后会大于总snp。同样,一个gene有多个转录本也会出现这样的情况。如果是Indel或者其他结构变异,这种情况更加可能发生了。

关键是,我看一些高水平文章的统计中,往往注释各区域之和少于或等于总的snp数,如:


image.png
image.png

他们是如何处理,怎样才能得到这样的结果呢?snpEff结果文档没说,网上也无解。有人用最佳transcript,但还是会出现这种情况。
number of functions is more than namber of variants in snpEff's output

问题二:注释Region出现Gene和transcript等区域?

在一些注释结果中,特别是大的结构变异中,常常还会出现gene、transcript之类的变异统计,有些则没有。按说有exon,应该都会落在gene,为什么gene时有时无。这如何理解?


image.png

同样,该问题snpEff文档中也没有详细解释。

希望有大佬指点一二。

上一篇 下一篇

猜你喜欢

热点阅读