funny生物信息重复序列

TRF(tandem repeats finder)使用手册(三

2019-03-23  本文已影响306人  Xylona_MS

Command lline: trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]

Where:(all weights, penalties, and scores are potive)

简单理解,即所有参数都为正数。

FIile = sequences input file(输入文件,需为fasta格式)

Match = matching weight(匹配上的权重)

Mismatch = mismatching penalty(没匹配上的罚分)

Delta = indel penalty(插入缺失罚分)

匹配权重值2被证明对“未匹配上”和“插入缺失”罚分在3-7范围内是有效的。当Mismatch和indel权重值是负数时,程序中断。3更加宽松,7更加严格。Match,Mismatch和Delta的推荐值是2,7,7

PM = match probability(匹配概率,整数)

PI = indel probability(插入缺失概率,整数)

概率值PM为80和75,PI为10和20是可取的。最佳运行值是OM=80,PI=10(PM=75,PI=20时虽差异不大,但会延长处理时间)。

Minscore = minimum alignment score to report(匹配上的串联重复序列最小分值,如果设定匹配权重为2,最小分值为50,最佳匹配需要匹配至少25bp(5 copies with a period of size 5))

MaxPeriod = maxinum period size to report(最大的重复单元bp数,程序将会找到重复单元在1-2000的所有重复,但是可以限制更小的范围)

[options] = one or more of the following:

 -m       masked sequence file(屏蔽序列文件,在每一个串联重复序列出现的地方(每一个核苷酸)都替换成N显示,“masked”会添加在序列描述行的>后,但实际操作看来,会在扩展名那里显示)

 -f       flanking sequence(标记串联重复序列两侧的侧翼序列,包含500个核苷酸。输出文件扩展名为txt)

-d       data file(与汇总表格包含相同信息,顺序,加入一致式样?和重复序列,不包含标签,适用于额外的处理)

-h       suppress html output(禁止html输出,并自动切换到-d参数)

-r        no redundancy elimination(不去冗余?)

-l<n>  maximum TR length expected (in millions) (eg, -l 3 or -l=3 for 3 million)(指定的最长TR长度n百万bp,若没有足够的运行内存,数值太高可能会导致错误信息,测试过的最大值是29)   

-u       打印帮助/使用信息

-v       打印版本信息

-ngs   多序列文件上更紧凑?的.dat输出,成功时返回0,可以使用这个参数输入,-用于文件名。短的50个侧翼序列加入到.dat输出文件中。 .dat输出实际上转到标准输出而不是文件。序列标题在输出中显示为@header。仅显示包含重复的标题。

示例命令行如下:

(./)trf yourseq.fasta 2 7 7 80 10 50 500 -f -d -m

上一篇下一篇

猜你喜欢

热点阅读