程序员基因组组装生信专题

基因组注释--重复序列注释(一):Trf软件安装与使用

2020-11-01  本文已影响0人  geneonto

前言

    动植物基因组注释包括重复序列注释以及基因结构注释,重复序列注释是注释中非常重要的环节,主要包括的软件有Trf、LTR_Finder、Piler、RepeatScout、RepeatModeler、Repeatmasker和repeatproteinmask。小编这次介绍Trf软件的安装与使用,Trf注释的是串联重复序列(以特定的重复单元首尾相接排列在基因组上,形成重复序列)

下载

    官网链接:Tandem Repeats Finder Welcome Page,小编这次安装的是v4.10.0

wget https://github.com/Benson-Genomics-Lab/TRF/archive/master.zip

unzip master.zip ;cd TRF-master

./configure --prefix=/Bioinfo/software/trf-4.10

make;make install

使用

 使用模板:trf sequence.fa 2 7 7 80 10 50 500 -f -d -m  #trf File Match Mismatch Delta PM PI Minscore MaxPeriod

File: FASTA 格式的DNA 输入序列

Match, Mismatch, and Delta: 匹配上,没匹配上和插入的权重,建议2, 7 7 

PM and PI :PM是指比上的概率,可选择数值为80 和75,PI 是插入的概率,可选择数值为10 和20,最好效果的参数是PM=80 和PI=10

Minscore: 被匹配上的串联重复序列的最小分值。比如,我们设定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重复单元,重复5 次)

Maxperiod: 最大的重复单元bp 数

下面是一些可选的选项

-m: 该参数将输入文件中trf序列屏蔽为N输出

-f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中

-d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理

输出文件中.dat文件对生信分析最友好,参数详情参考官网 :GitHub - Benson-Genomics-Lab/TRF: Tandem Repeats Finder: a program to analyze DNA sequences

上一篇下一篇

猜你喜欢

热点阅读