TRF(tandem repeats finder)使用手册(三
Command lline: trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]
Where:(all weights, penalties, and scores are potive)
简单理解,即所有参数都为正数。
FIile = sequences input file(输入文件,需为fasta格式)
Match = matching weight(匹配上的权重)
Mismatch = mismatching penalty(没匹配上的罚分)
Delta = indel penalty(插入缺失罚分)
匹配权重值2被证明对“未匹配上”和“插入缺失”罚分在3-7范围内是有效的。当Mismatch和indel权重值是负数时,程序中断。3更加宽松,7更加严格。Match,Mismatch和Delta的推荐值是2,7,7
PM = match probability(匹配概率,整数)
PI = indel probability(插入缺失概率,整数)
概率值PM为80和75,PI为10和20是可取的。最佳运行值是OM=80,PI=10(PM=75,PI=20时虽差异不大,但会延长处理时间)。
Minscore = minimum alignment score to report(匹配上的串联重复序列最小分值,如果设定匹配权重为2,最小分值为50,最佳匹配需要匹配至少25bp(5 copies with a period of size 5))
MaxPeriod = maxinum period size to report(最大的重复单元bp数,程序将会找到重复单元在1-2000的所有重复,但是可以限制更小的范围)
[options] = one or more of the following:
-m masked sequence file(屏蔽序列文件,在每一个串联重复序列出现的地方(每一个核苷酸)都替换成N显示,“masked”会添加在序列描述行的>后,但实际操作看来,会在扩展名那里显示)
-f flanking sequence(标记串联重复序列两侧的侧翼序列,包含500个核苷酸。输出文件扩展名为txt)
-d data file(与汇总表格包含相同信息,顺序,加入一致式样?和重复序列,不包含标签,适用于额外的处理)
-h suppress html output(禁止html输出,并自动切换到-d参数)
-r no redundancy elimination(不去冗余?)
-l<n> maximum TR length expected (in millions) (eg, -l 3 or -l=3 for 3 million)(指定的最长TR长度n百万bp,若没有足够的运行内存,数值太高可能会导致错误信息,测试过的最大值是29)
-u 打印帮助/使用信息
-v 打印版本信息
-ngs 多序列文件上更紧凑?的.dat输出,成功时返回0,可以使用这个参数输入,-用于文件名。短的50个侧翼序列加入到.dat输出文件中。 .dat输出实际上转到标准输出而不是文件。序列标题在输出中显示为@header。仅显示包含重复的标题。
示例命令行如下:
(./)trf yourseq.fasta 2 7 7 80 10 50 500 -f -d -m