TRF（tandem repeats finder）使用手册（三

2019-03-23 本文已影响306人 Xylona_MS

Command lline: trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]

Where:(all weights, penalties, and scores are potive)

简单理解，即所有参数都为正数。

FIile = sequences input file（输入文件，需为fasta格式）

Match = matching weight（匹配上的权重）

Mismatch = mismatching penalty（没匹配上的罚分）

Delta = indel penalty（插入缺失罚分）

匹配权重值2被证明对“未匹配上”和“插入缺失”罚分在3-7范围内是有效的。当Mismatch和indel权重值是负数时，程序中断。3更加宽松，7更加严格。Match，Mismatch和Delta的推荐值是2,7,7

PM = match probability（匹配概率，整数）

PI = indel probability（插入缺失概率，整数）

概率值PM为80和75，PI为10和20是可取的。最佳运行值是OM=80，PI=10（PM=75，PI=20时虽差异不大，但会延长处理时间）。

Minscore = minimum alignment score to report（匹配上的串联重复序列最小分值，如果设定匹配权重为2，最小分值为50，最佳匹配需要匹配至少25bp（5 copies with a period of size 5））

MaxPeriod = maxinum period size to report（最大的重复单元bp数，程序将会找到重复单元在1-2000的所有重复，但是可以限制更小的范围）

[options] = one or more of the following:

-m masked sequence file（屏蔽序列文件，在每一个串联重复序列出现的地方（每一个核苷酸）都替换成N显示，“masked”会添加在序列描述行的>后，但实际操作看来，会在扩展名那里显示）

-f flanking sequence（标记串联重复序列两侧的侧翼序列，包含500个核苷酸。输出文件扩展名为txt）

-d data file（与汇总表格包含相同信息，顺序，加入一致式样？和重复序列，不包含标签，适用于额外的处理）

-h suppress html output（禁止html输出，并自动切换到-d参数）

-r no redundancy elimination（不去冗余？）

-l<n> maximum TR length expected (in millions) (eg, -l 3 or -l=3 for 3 million)（指定的最长TR长度n百万bp，若没有足够的运行内存，数值太高可能会导致错误信息，测试过的最大值是29）

-u 打印帮助/使用信息

-v 打印版本信息

-ngs 多序列文件上更紧凑？的.dat输出，成功时返回0，可以使用这个参数输入，-用于文件名。短的50个侧翼序列加入到.dat输出文件中。 .dat输出实际上转到标准输出而不是文件。序列标题在输出中显示为@header。仅显示包含重复的标题。

示例命令行如下：

（./）trf yourseq.fasta 2 7 7 80 10 50 500 -f -d -m