教程 | BUSCO 评估基因组组装完整性(含注意事项)
2023-06-13 本文已影响0人
生信石头
BUSCO评估基因组组装完整性,是一件非常简单的事情,我很少关注。但最近又小朋友说自己使用时总是遇到问题。我尝试在他目录下跑了一下,似乎也确实遇到问题,无法解决。认为两个可能:
- 对软件参数还是不了解
- 可能是一些软件环境有冲突(conda安装有时如此)
为此,在组会同时顺手测试了一下
使用 conda 安装 busco
mamba create -n busco -c conda-forge -c bioconda busco=5.4.7
下载参考基因集合
手动下载参考BUSCO基因集合
wegt https://busco-data.ezlab.org/v5/data/lineages/eukaryota_odb10.2020-09-10.tar.gz
tar -zxvf eukaryota_odb10.2020-09-10.tar.gz
直接开始评估
# 默认调用 metauk 预测基因集
busco -i `pwd`/Chr_18.fa -l `pwd`/eukaryota_odb10/ -o at -m genome --force --offline --cpu 8 -r --contig_break 100
似乎没有遇到什么问题,其中考虑到师弟的组装用了100个n来表示gap,而busco默认参数是10个n,故增加这个参数。但似乎就算我不加这个参数,也没事。于是,不知道为什么他的环境不行,但新环境没问题,能用就行,软件安装和环境部署上就不纠结了。
使用 augustus 评估
busco(可能是version5的缘故)似乎默认调用 metauk 进行基因预测,比较奇怪。因为这个流程主要是针对宏基因组?在植物上是否合适?而busco参数中可以指定 augustus 进行基因预测。然而 conda 安装的 busco 环境其实 augustus 有问题。检索了一下,是已知bug但未解决,不过,可以直接通过升级 augustus 版本到 3.5.0 来解决问题(默认3.4.0 2023年06月14日)
更新 augustus
# conda 自动安装 augustus 有问题
conda activate busco
mamba install -c bioconda augustus=3.5.0
开始评估
busco -i `pwd`/Chr_18.fa -l `pwd`/eukaryota_odb10 -m genome --force --offline --augustus --cpu 40 -r --contig_break 100 -o test_0
有趣的是,busco 默认调用 augustus 的基因集合是 fly,这个不是瞎搞?参数上也没提示,可能会导致预测结构很差?或者比较差,我没做具体评估。但是,可以从参数指定 augustus 的参考基因集合。目前来说,集合最好的应该是拟南芥(但是是否最全,最优,不知道),总比 fly 好,对于植物来说
busco -i `pwd`/Chr_18.fa -l `pwd`/eukaryota_odb10 -m genome --force --offline --augustus --augustus_species arabidopsis --cpu 40 -r --contig_break 100 -o test_1
于是评估结束。至于其他参数和出图,不需要我来折腾。