生信相关科研信息学基因组

「重复序列注释」MITE-Hunter鉴别基因组的MITE序列

2018-12-26  本文已影响51人  xuzhougeng

背景篇

MITE属于II类非自主转座因子,并且在真核生物中存在大量的拷贝。 MITE长度大约是500bp,并且扩增速度非常快。2013年一篇发表在NAR的文章"P-MITE: a database for plant miniature inverted-repeat transposable elements", 作者统计了各个物种中MITE的数目

MITE在不同物种的数目

目前主要有两大家族,Stowaway和Tourist,分别来自于Tc1/Mariner和PIF/Harbinger超家族。一个典型MITE结构如下:

MITE结构

MITE-Hunter从基因组上搜索II类转座因子,如MITE(miniature inverted repeat transposable elements),以及长度低于2kb的非自主转座因子。MITE-Hunter的分析流程如下图所示,主要分为五步:

  1. 根据MITE的结构特征搜索候选的TE
  2. 通过配对序列联配(Pairwise Sequence Alignment, PSA) 过滤假阳性
  3. 得到模板序列
  4. 基于多序列比对(Multiple Sequence Alignment, MSA)进一步过滤假阳性,构建一致性序列,并预测TSD
  5. 将一致性序列进行分组,归类到不同家族。
分析流程

安装篇

安装MITE-Hunter之前,先要安装其他三个软件:

http://target.iplantcollaborative.org/mite_hunter.html下载,进入解压后的文件夹中,运行如下安装命令

perl MITE_Hunter_Installer.pl \
  -d /opt/biosoft/MITE_Hunter/ \  #MITE_hunter解压缩后的文件夹路径
  -f /opt/biosoft/blast-2.29/formatdb \ # formatdb的路径
  -b /opt/biosoft/blast-2.29/blastall \ #blastall的路径
  -m /opt/biosoft/mdust/mdust \ # mdust的路径
  -M /opt/biosoft/muscle/muscle #muscle的路径

使用篇

下面的操作中,假设你下载了拟南芥的基因组,并且命名为TAIR10.fa

MITE-Hunter只要求单个输入文件,但是有很多参数需要调整。

perl MITE_Hunter_manager.pl \
  -i TAIR10.fa \
  -g thaliana \
  -n 5 \
  -S 12345678 \
  -P 1 &

参数说明:

核心的三个参数:

其他参数, 除了改改线程数以外,基本上都是无脑用作者的默认参数。

最后输出文件,Step8_*.fa” 和 “Step8_singlet.fa”候选的MITE序列,你可以将其命名为MITE.lib,用作后续的RepeatMasker输入.

你还可以手动检查输出结果,过滤一些假阳性。例如通过检查MSA文件,根据能否确定TIR和TSD的位置判断预测的TE是否真实存在

案例

以及将预测的TE在http://target.iplantcollaborative.org/进行检索,判断一个TE是否是有多个其他TE组成。

覆盖度一致,说明是单个TE 覆盖度不一致,说明是复合TE

推荐阅读

其他的一些MITE软件: MITE Digger, RSPB

上一篇下一篇

猜你喜欢

热点阅读