简洁 | 优雅地准备 比较基因组分析 文件
2020-10-02 本文已影响0人
生信石头
写在前面
比较基因组分析已然是常见生信数据分析。开展这类分析时,往往会遇到各式各样的问题,尤其是,输入文件内容和格式的问题,比如:
- 只有基因组序列文件和基因结构注释信息
- CDS或者蛋白序列 ID 与基因结构注释信息文件中基因 ID 不匹配
- CDS或蛋白序列文件中包含可变剪切体
- 不同物种 ID 命名系统冲突
- ...
解决这一系列问题,最好的办法是针对每一个物种,做相应的文件准备。在 TBtools 中,已有系列工具实现,如 One Step MCScanX 等。为了后续的一些可能操作,使 TBtools 功能串联使用更为顺畅,刚才花了点时间,抽取这部分功能。
Genome Analysis Init

可以看出来,输入文件有二:
- 基因组序列文件
- 基因结构注释信息文件
此外,可选项 Prefix ,可用于增加前缀,解决不同物种 ID 命名冲突的问题
最后是... 一个输出目录(注意:是目录,不是文件)
使用方法
打开 TBtools 并找到该功能

打开 Genome Analysis Init,随后设置输入输出文件

输出文件

其中,无论是CDS 还是 蛋白序列,都已经取了代表性转录本对应的序列,可以直接用于下游分析
写在后面
可以说,这是一个非常简单的功能。在这个功能推出之前,可以用 TBtools 分几步走:
- 对 GXF 文件进行前缀增加
- 对基因组序列ID进行前缀增加
- 提取GXF代表性转录本的CDS
- 翻译 CDS 为 蛋白
然而,如果可以一步搞定,为什么还要做四步呢?