一套比较简便的基因组组装流程V2.0

2022-12-05 本文已影响0人挖泥种地

之前写过一套比较简便的基因组组装流程，时间快2年了，现在新技术，新方法出来了，有更好的的方法去干，所以写个更新版

1 测序

经过测试，目前效果最好的方法是：HIFI测序40x + ont超长测序100x，illumina100x，Hi-C测定100x，转录组若干（各个组织+各个环节）

2 contig组装

软件：HiFiasm

最近hifiasm软件更新了，可以用hifi数据组装，ont数据延长，运气好的话，一步T2T

注：一般认为hifi数据不需要进行polish，为避免审稿人嘴碎，可以在这一步结束后利用pilon与二代数据结合进行polish，不过改进不是很大。

有个更diao的软件 verkko，据说大部分直接T2T 不过我跑的时候一直报错算了

3 scaffold组装，染色体划分

Juicer+3ddna+juicebox

与上一步结合，直接使用.0.hic与.0.assembl文件在juicebox中，手工直接划分染色体

4 基因组注释

a 重复序列注释：conda安装EDTA，跑流程

b 基因结构注释：conda安装braker2，利用转录组数据结合从头预测获得结构基因

miniprot+blat+genome threader进行同源注释

EVM整合以上注释结果

转录组测得的越多，注释效果越好。