生信小白

生物信息百Jia软件(十一):svsim

2019-08-05  本文已影响2人  基因学苑

欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!

基因学苑Q群:32798724

模拟数据其实是非常重要的,通过模拟数据可以方便评估一款软件的准确性与敏感性。SV检测一直是基因组分析中最难的一个问题,一方面是因为目前测序读长过短,另一方面是因为SV类型多变,包括插入,缺失,易位,倒位,倍增等多种类型,通过svsim可以分别模拟每一种sv类型,然后可以利用wgsim对其进行模拟测序,之后可以用sv检测软件评估检测的效率。

一、功能分类: 

SV模拟软件

二、软件官网:

https://github.com/GregoryFaust/SVsim

三、软件介绍:

svsim的主要作用也是用于软件的评估。因为模拟的变异事先知道数量和具体位置,可以用来评估软件检测的效率,包括敏感性与特异性。因为实际数据中的SV并不清楚是真实存在的还是误差导致。svsim可以模拟出insertion, deletion, duplication, inversion 和translocation五种sv变化,sv的长度在50bp或者以上,这也正是我们对sv的定义长度。小于这个就是indel了。

四、下载安装: 

gitclonegit://github.com/GregoryFaust/SVsim.git

cp SVsim/SVsim /usr/local/bin/

五、软件使用: 

选项    释义

-i    输入文件,这个文件非常重要,里面列出SV的模式,后面我们会介绍如何书写这个文件。

-r    基因组序列的索引,也是必须的,注意是索引文件,不是序列文件,序列文件也要在。

-o    输出文件前缀

下面几个选项只适用于全基因组模式

-d    每个事件在明显的区域,可以加上试试,比较一下与不加-d的差别

下面几个选项只适用于contig模式,主要都是用来控制contig模式时,如何输出结果。

-c INT    在每个breakpoints事件前面取多长序列,默认是500

-l    如果设置-l,表示在INC/INR/INS/INV 这些SV事件中,只保留左边断点和bedpe的条目

-p INT    在每个事件后面取多长序列,默认也是500

下面两个选项是通用的。

-n INT    每一行发生重复时间的次数,默认是1,可以用来控制模拟SV的数目

-s INT    设置一个随机数种子,保证可重复

六、使用案例: 

SVsim-icommands.sim-rgenome.fasta-ooutput

七、注意事项:

1、由于SV分成多种类型,因此配置文件不容易书写。

上一篇下一篇

猜你喜欢

热点阅读