HiTE注释重复序列

2024-09-02  本文已影响0人  徒唤奈何_c5f0

使用conda安装HiTE

# Find the **yml** file in the project directory and run
cd HiTE
conda env create --name HiTE -f environment.yml
conda activate HiTE

# run HiTE
python main.py \
 --genome ${genome} \
 --thread ${thread} \
 --outdir ${output_dir} \
 [other parameters]
 
 # e.g., my command: python main.py 
 # --genome /home/hukang/HiTE/demo/genome.fa 
 # --thread 40 
 # --outdir /home/hukang/HiTE/demo/test/

我本来打算安装好之后使用conda-pack迁移到服务器使用,运行之后发现有部分依赖并不能被conda-pack迁移,比如LTR识别,以及他们的依赖包,需要迁移之后继续安装ltr_retriever 等几个包,不然会在ltr识别步骤停止无法继续。
这个包依赖很麻烦,还是建议使用容器运行。
安装之后运行,我使用的是本地pc,16线程 5800h,400m植物基因组运行约6h,总共运行了两次,第二次运行时把第一次运行产生的TE库作为输入lib运行。

python main.py --genome 0712.3 90m.last.chr.fasta --thread 16 --outdir HiTE.out

python main.py --genome 0712.390m.last.chr.fasta --outdir 003.genome.anno/HiTE.out/0902 --curated_lib 003.genome.anno/HiTE.out/TE_merge_tmp.fa.cla ssified --annotate 1 --thread 16

结果文件如下

HiTE.gff                    confident_helitron.fa    confident_tir.fa                      genome.rename.fa.pass.list
HiTE.out                    confident_helitron_0.fa  confident_tir_0.fa                    genome.rename.fa.retriever.all.scn
HiTE.tbl                    confident_ltr_cut.fa     genome.rename.fa                      genome_all.fa.rawLTR.scn
TE_merge_tmp.fa.classified  confident_non_ltr.fa     genome.rename.fa.LTRlib.fa            longest_repeats_0.fa
chr_name.map                confident_non_ltr_0.fa   genome.rename.fa.finder.combine.scn   longest_repeats_0.flanked.fa
confident_TE.cons.fa        confident_other.fa       genome.rename.fa.harvest.combine.scn

打开HiTE.tbl查看结果,发现重复序列的总数与预期相比很低,原本预期40%,但是统计只有22%,可能是库选择有问题。准备把HiTE,EDTA,repeatmodeler的库合并跑TEsorter,新建库之后再跑repeatmasker和HiTE。

上一篇下一篇

猜你喜欢

热点阅读