2024-07-24 CD-hit,seqkit 按照ID提取序

2024-07-23  本文已影响0人  dashan1928

宏基因组二代测序结果binning之后的序列可能存在重复,首先使用prokka将binning后的序列转化为蛋白序列,

再使用CD-hit 命令默认参数将序列进行去重复

然后使用seqkit seq -i 获取序列的id

再使用seqkit grep -f 获取原先每个bin中的fasta序列

注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽可能保证剩余序列的唯一性

上一篇 下一篇

猜你喜欢

热点阅读