基因组

说说重复序列

2018-07-19  本文已影响0人  租房那些事儿

一篇对重复序列讲解相对比较完善的博文

RepeatModeler

使用RepeatModeler来通过基因组序列构建LIBRARY

Prerequisites

perl 5.8.0 or higher

RepeatMasker & Libraries 见下面的解释

RECON - De Novo Repeat Finder

RepeatScout - De Novo Repeat Finder

TRF(Tandem Repeat Finder)

NSEG - Low complexity sequence identification.

search engines:RMBlast或ABBlast/WUBlast

RepeatMasker

简书上的一篇分享文章

Prerequisites

perl 5.8.0 or higher

Sequence Search Engine:Cross_Match或者 RMBlast或HMMER或ABBlast/WUBlast WUBlast/ABBlast(至少一个上述的搜索工具)

RMBlast

TRF(Tandem Repeat Finder) 用于鉴定DNA序列上的串联重复区域,输入文件是fa文件,输出有两个repeat table file和 alignment file文件,可以先看看Example of output了解输出文件的格式,多序列的输入文件最后会输出名字为summary.html索引文件,使用说明以及参数网页中最后一行可以链接到输出文档的说明页面

Repeat Database: repeatmasker本身内置两个小型的数据库dfam和dfam_consensus并且在不断更新中,不过还是建议使用者结合repbase数据库一起使用,repbase需要注册许可证,下载后在RepeatMasker文件夹中解压,来自GIRI的文件将它解压到重复的目录中,它会自动将内容放在正确的子目录中。

Dfam(目前包含的物种human, mouse, zebrafish, fruit fly, and nematode)

Dfam_consensus

Repbase 需要用户名和密码,用gmail邮箱注册,需要等待1-2个工作日,

上一篇下一篇

猜你喜欢

热点阅读