说说重复序列
使用RepeatModeler来通过基因组序列构建LIBRARY
Prerequisites
perl 5.8.0 or higher
RepeatMasker & Libraries 见下面的解释
RECON - De Novo Repeat Finder
RepeatScout - De Novo Repeat Finder
TRF(Tandem Repeat Finder)
NSEG - Low complexity sequence identification.
search engines:RMBlast或ABBlast/WUBlast
Prerequisites
perl 5.8.0 or higher
Sequence Search Engine:Cross_Match或者 RMBlast或HMMER或ABBlast/WUBlast WUBlast/ABBlast(至少一个上述的搜索工具)
RMBlast
TRF(Tandem Repeat Finder) 用于鉴定DNA序列上的串联重复区域,输入文件是fa文件,输出有两个repeat table file和 alignment file文件,可以先看看Example of output了解输出文件的格式,多序列的输入文件最后会输出名字为summary.html索引文件,使用说明以及参数网页中最后一行可以链接到输出文档的说明页面
Repeat Database: repeatmasker本身内置两个小型的数据库dfam和dfam_consensus并且在不断更新中,不过还是建议使用者结合repbase数据库一起使用,repbase需要注册许可证,下载后在RepeatMasker文件夹中解压,来自GIRI的文件将它解压到重复的目录中,它会自动将内容放在正确的子目录中。
Dfam(目前包含的物种human, mouse, zebrafish, fruit fly, and nematode)
Repbase 需要用户名和密码,用gmail邮箱注册,需要等待1-2个工作日,