基因组基因组

整理一下重复序列屏蔽

2019-12-03  本文已影响0人  多啦A梦的时光机_648d

由于之前利用repeatmasker自身的lib进行屏蔽时发现,lib里没有我研究的物种,要是不指定物种的话,repeat的鉴别率只有2.16%。所以自由自己建repeat数据库作为repeatmasker的输入。

一:利用MITE-Hunter识别mite序列(安装 NCBI BLAST,Muscle, mdust等)

下载mite-hunter并进行配置

perl MITE_Hunter_Installer.pl \
  -d /opt/biosoft/MITE_Hunter/ \  #MITE_hunter解压缩后的文件夹路径
  -f /opt/biosoft/blast-2.29/formatdb \ # formatdb的路径
  -b /opt/biosoft/blast-2.29/blastall \ #blastall的路径
  -m /opt/biosoft/mdust/mdust \ # mdust的路径
  -M /opt/biosoft/muscle/muscle #muscle的路径

运行程序:

nohup perl $/your path/MITE_Hunter/MITE_Hunter_manager.pl -i /your path/assembly.fasta -g nephila_mite -c 8 -n 5 -P 0.35 -S 12345678 &

输出文件:
MITE-Hunter的输出文件包括分组后的一致性TE序列及其对应多重联配文件。
最后合格的序列,或者直接将输出文件,Step8_*.fa” 和 “Step8_singlet.fa”候选的MITE序列,你可以将其命名为MITE.lib,用作后续的RepeatMasker输入.

cat *Step8.*fa *Step8_singlet.fa > laruinae_MITE.lib

二:利用LTR_harvest寻找LTR(其实叫DAWGPAWS)

下载地址:

https://excellmedia.dl.sourceforge.net/project/dawgpaws/dawgpaws/dawpaws-1.0/dawgpaws-1.0.tar.gz

安装运行:

nohup /your path/LTR_harvest/bin/gt suffixerator -db /your path/assembly.fasta -indexname laurinae -tis -suf -lcp -des -ssp -sds -dna &

nohup /your path/LTR_harvest/bin/gt ltrharvest -index laurinae -similar 90 -vic 10 -seed 20 -seqids yes -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 -motif TGCA -motifmis 1 > laurinae_harvest_scn &

三:利用LTR_finder寻找LTR

下载地址:

https://github.com/xzhub/LTR_Finder

配置运行:

nohup /your path/LTR_Finder/source/ltr_finder /your path/assembly.fasta > ltr.finder.scn &

四:利用LTR_retriever整合LTR_harvest与LTR_finder的结果

下载地址:

https://github.com/oushujun/LTR_retriever

配置运行:

nohup /your path/LTR_retriever/LTR_retriever -genome /you path/assembly.fasta -inharvest /your path/laurinae_harvest_scn -infinder /your path/ltr.finder.scn -threads 20 &

结果如下:(第二个为去冗余的结果)


输出结果

五:将MITE-Hunter的结果与LTR_retriever的结果整合作为repeatmasker的输入

cat laurinae_MITE.lib laurinae_fasta_LTRlib.fa > MITE_LTR.lib
/your path/RepeatMasker -lib MITE_LTR.lib -dir . $REFERECE
上一篇下一篇

猜你喜欢

热点阅读