gff中的负链如何理解
2022-06-24 本文已影响0人
爱吃海椒的妹妹
在我们得到SNP位点的VCF文件,想要查看某个SNP位点其在蛋白序列哪一个位点,以了解该位点氨基酸突变的情况时,遇到gff为负链的情况而和我们VCF所给位置信息对不上,为了解决这个问题,于是写了以下文章
在gff文件中有时候遇到这种“-”号的
gff文件各列含义解释
首先,我们从这个gff文件格式信息中得知,该“-”代表着负链
在遇到这种负链是,我们根据gff文件从基因组上提取基因序列时,提取的是它的反向互补链,具体证据见两篇文章
gff负链反向互补 - CSDN
根据gff/gtf等注释文件取负链上的序列:先反向互补染色体再截取?还是先截取区间再反向互补序列?_viancheng的博客-CSDN博客
那么,什么是反向互补链呢?
在DNA中,两条DNA单链为彼此的反向互补链
DNA反向互补
所谓反向互补,就是反向相反,碱基互补
比如:
原序列: 5’ AATTCCGG 3'
则反向序列为:5’ GGCCTTAA 3'就是原序列反过来;
互补序列: 5’ TTAAGGCC 3'就是与原序列互补;
反向互补: 5’ CCGGAATT 3 就是与反向序列互补
这里注意碱基序列的书写顺序为5’-3'
从DNA图里看反向互补就是这样的
image.png
gff与gene的对应关系:
举个例子
比如我们在基因组上的4-11位是以下的序列信息,利用gff文件,我们得到了基因a
[图片上传中...(image.png-23728-1656053722379-0)]
那么我们的提取的gene文件应该是什么样的呢?
首先我们看到,gff显示此链为负链,所以基因a应该是它的反向互补
基因a
所以,假如我们某个SNP位于基因组上的第7位,其碱基为T,那么,在具体的基因a里,它应该是什么样的呢
其在基因a上的位置信息应该是即为第11-7+1=5位的A,即在基因a上的位置信息=基因组下限区间pos-SNP位于基因组上的pos+1,且为互补碱基。
即,基因组的gff文件注释的是gene文件的信息,而非基因组的信息。