EDTA-重复序列注释
2021-04-07 本文已影响0人
斩毛毛
EDTA (Extensive de novo TE Annotator), TE注释工具
整合了几款TE注释工具与一体,具体如下
详情请看: https://github.com/oushujun/EDTA
安装
conda create -n EDTA
conda activate EDTA
python2 -m pip install --user numpy==1.14.3 biopython==1.74 pp
conda config --env --add channels anaconda --add channels conda-forge --add channels biocore --add channels bioconda --add channels cyclus
conda install -n EDTA -y cd-hit repeatmodeler muscle mdust repeatmasker=4.0.9_p2 blast-legacy java-jdk perl perl-text-soundex multiprocess regex tensorflow=1.14.0 keras=2.2.4 scikit-learn=0.19.0 biopython pandas glob2 python=3.6 trf
git clone https://github.com/oushujun/EDTA
./EDTA/EDTA.pl
发现没有安装GRF,继续安装
点击下载, 后
tar zxf grf.XXX.tar.gz
cd grf.XXX.tar/src
make
测试数据使用
*EDTA/test
nohup /usr/bin/time -v perl \
../EDTA.pl --genome genome.fa --cds genome.cds.fa \
--curatedlib ../database/rice6.9.5.liban \
--exclude genome.exclude.bed --overwrite 1 \
--sensitive 1 --anno 1 --evaluate 1 --threads 10 > EDTA.test &
参数说明:
--genome: 基因组序列
--species: 物种名,默认others
-step: all|filter|final|anno: 默认all
-t:线程
-cds:提供已有滴cds序列,过滤作用
-sensitive:是否用repeatmodeler分析剩下的TE,默认为0
-anno:是否对全基因组进行TE注释
xxx.EDTA.TElib.fa 就是最后的TE库
运行遇到的问题
-
rmBLAST 找不到
将conda安装的删除,重新安装了rmbalst v2.6.0就👌了,可能是版本不匹配。 -
No module named 'numpy.testing.nosetester
将numpy 删除,重新安装numpy 1.17.0
pip uninstall numpy
pip install numpy==1.17.0
- 'str' object has no attribute 'decode'
用的是python3.6 所以把对应decode都删除即可