基因组重复序列注释基因组学Variants calling

RepeatModeler + RepeatMasker

2019-04-22  本文已影响0人  陈洪瑜

在基因组注释中第一步就是重复序列的屏蔽,目前常用的从头注释pipeline就是RepeatModeler + RepeatMasker。

1. 软件安装

RepeatMasker软件的使用需要应用一些其他的相关软件,同时RepeatModeler软件核心是RECON和RepeatScout,所以需要先配套安装好需要的软件才行;

TRF

trf下载地址:https://tandem.bu.edu/trf/trf409.linux64.download.html

mv trf409.linux64 trf

chmod a+x trf

RMblast

2.60版本安装方法(未安装成功)

ncbi-blast下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.6.0/ncbi-blast-2.6.0+-src.tar.gz

isb 下载地址:http://www.repeatmasker.org/isb-2.6.0+-changes-vers2.patch.gz

tar zxvf ncbi-blast-2.6.0+-src.tar.gz

gunzip isb-2.6.0+-changes-vers2.patch.gz

cd ncbi-blast-2.6.0+-src

patch -p1 < ../isb-2.6.0+-changes-vers2.patch

cd c++

./configure --with-mt --prefix=对应的路径 --without-debug && make && make intsall

切换为安装2.2.28版本

ncbi-blast 2.2.28版本下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.28/ncbi-blast-2.2.28+-x64-linux.tar.gz

ncbi-rmblastn 2.2.28版本下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/2.2.28/ncbi-rmblastn-2.2.28-x64-linux.tar.gz

tar zxvf ncbi-blast-2.2.28+-x64-linux.tar.gz

tar zxvf ncbi-rmblastn-2.2.28-x64-linux.tar.gz

cp -R ncbi-rmblastn-2.2.28/* ncbi-blast-2.2.28+/

rm -rf ncbi-rmblastn-2.2.28

mv ncbi-blast-2.2.28+ rmblast-2.2.28

/usr/local/rmblast-2.2.28/bin/rmblastn -h

RECON

下载地址:http://repeatmasker.org/RepeatModeler/RECON-1.08.tar.gz

tar zxvf RECON-1.08.tar.gz

cd RECON-1.08/src

make && make install

NSEG

下载地址:ftp://ftp.ncbi.nih.gov/pub/seg/nseg/*

make

RepeatScout

下载地址:http://www.repeatmasker.org/RepeatScout-1.0.5.tar.gz

RepeatMasker

下载地址:http://repeatmasker.org/RepeatMasker-open-4-0-7.tar.gz

tar zxvf RepeatMasker-open-4-0-7.tar.gz

perl ./configure 软件配置

    <PRESS ENTER TO CONTINUE> # 回车继续

    Enter path [ ]: # 输入perl程序路径 /usr/bin/perl

    Enter path [ ]: # 输入RepeatMasker要安装的路径 /public4/chy/software/RepeatMasker/RepeatMasker

    Enter path [ ]: # 输入TRF路径(地址1) /public4/chy/software/RepeatMasker

    Add a Search Engine: # 选择一个搜索引擎(需要事先安装好),并输入引擎路径(地址2)

    1. CrossMatch: [ Un-configured ]

    2. RMBlast - NCBI Blast with RepeatMasker extensions: [ Un-configured ] /public4/chy/software/RepeatMasker/rmblast-2.2.28/bin

    3. WUBlast/ABBlast (required by DupMasker): [ Un-configured ]

    4. HMMER3.1 & DFAM: [ Un-configured 

   5. Done

    Do you want RMBlast to be your default # 设置默认搜索引擎

     search engine for Repeatmasker? (Y/N) [ Y ]:

     # 可以安装多个引擎,完成后按5

    Congratulations! RepeatMasker is now ready to use. # 提示已经安装完成

      # RepeatMasker已经安装完成,下一步将之前下载解压的Repbase文件COPY到RepeatMasker安装路径下的Libraries文件夹中即可

RepeatModeler

下载地址:http://repeatmasker.org/RepeatModeler/RepeatModeler-open-1.0.11.tar.gz

tar zxvf RepeatModeler-open-1.0.11.tar.gz

perl ./configure 软件配置 (与RepeatMasker类似)

Repbase数据库

按理应该在http://www.girinst.org/server/RepBase/index.php注册下载,但是目前打不开网站,可以在百度云盘http://pan.baidu.com/s/1c2zSMKo下载

2. 脚本运行

2.1 建立数据库

${RepeatModelerPath}/BuildDatabase -name${database_name}${fasta}

2.2 构建library

${RepeatModelerPath}/RepeatModeler -pa 30 -database${database_name}>& run.out &

结果文件夹种的consensi.fa.classified可以作为library用于RepeatMasker进行重复序列的屏蔽。

2.3 重复序列的屏蔽

$RepeatMasker -pa 16 \

  -lib consensi.fa.classified \

  -dir Repeat_result -html -gff species.genome.fasta

注意,RepeatMasker的结果文件夹Repeat_result需要提前手动建立,否则程序运行完成后结果文件会丢失。

无library直接使用RepeatMasker中的RepBase数据库来计算重复序列,若RepBase数据库对目标物种的覆盖不好,则很可能只找到较少的重复序列。此时,使用RepeatModeler构建library就很有必要。

参考:http://www.repeatmasker.org/RepeatModeler/

https://sr-c.github.io/2018/05/27/RepeatModeler-engine/

上一篇下一篇

猜你喜欢

热点阅读