核心基因提取：prokka、roary和TBtools的联合运用

2021-10-28 本文已影响0人大坏蛋HYB

首先，下载好基因组的完成图（自己的也行，只要确保测序质量够好），先用prokka注释完获得*.gff文件（批量可以参考我之前的文章用autoprokka执行），将gff文件放到文件夹中，如：gff/.
接着利用roary进行泛基因组分析，-g选项尽量设置大于默认值，以免过小程序报错：
roary -p 线程数 -f 输出文件夹 -e -n -g 100000 gff/*.gff
分析完成后，获得gene_presence_absence.csv文件，打开，根据提供的gff文件数量，等于该数量的基因即为所分析的基因组的核心基因，如图，我总共分析了365个，那么365个样本都有的基因即为核心基因：

到表中随意一个样本的列，复制所有对应的locus-tag名字，打开TBtools：

对应的locus_tag

tbtools
选择fasta提取（基础版）模块，设置好输入文件（用prokka注释得到的.ffn），输出文件目录及文件名，复制需要提取的locus_tag到下面空白处，注意要和ffn文件里的一致：

image.png

点击start，等待提取完成后，即可获得该批基因组文件的所有核心基因：

输出文件

如果序列名字对后续分析有影响可以自行利用TBtools等进行统一修改。

核心基因提取：prokka、roary和TBtools的联合运用

猜你喜欢

热点阅读