bedtools getfasta提取基因序列实战
2022-03-05 本文已影响0人
嗒嘀嗒嗒嘀嗒嘀嘀
由gtf文件得到含CDS坐标的bed文件,并提取CDS序列
-
首先要注意,gtf文件的序列起始坐标减一,才是bed文件的起始坐标!!!
因为gtf的第一个碱基记为1,但是bed文件的第一个碱基记为0。
比如我提取的含有起始密码子的序列应该是这样的含起始密码子序列
gtf文件中显示该段CDS的起始位置为23519,直接用该坐标检索出来的序列为直接检索出的CDS
很显然,该序列少了个A碱基。
gtf或gff文件可以直接用bedtools getfasta提取启动子
- 将gtf重命名为gff格式,然后直接提取
- -s参数会参考正负链信息,正义链就提取正义链的序列,反义链就提取反义链的序列。.gff文件中正负链的信息在第七列$7。
- -name+ 会把.gff文件第三列的信息也写在输出序列fasta的header信息中。.gff文件中的信息一般是gene、mRNA、exon、CDS等这类信息,其实可以用Gene ID或Gene Symbol替代这一列,使生成的序列信息更明了。
bedtools getfasta -fi genome.fa -bed tmp.gff -s -name+ -fullHeader -fo tmp.fa