TBtools | 基因结构变异检测插件 Genome VarS

2023-10-03  本文已影响0人  生信石头

不少朋友对 TBtools 的基因结构变异检测插件 Genome VarScan 感兴趣。这个插件我开放了几个参数。当然我觉得对绝大多数人来说,默认参数已经够用。但不排除在一些情况下,我们需要按照需要调整参数。
为避免大伙使用时有一些疑问,写个推介,介绍参数如下。



首先理解这个插件的执行逻辑:

  1. 调用 Minimap2 进行两个基因组的比对,生成一个 paf 文件
  2. 基于 paf 文件,提取编译,其中包括 SV 和 SNP,一般我们就关注 SV

其中第一步没有过多调整空间,第二步可以理解为 paftools.js 的 java 实现。所以整体参数和效果,跟 minimap2+paftools.js 鉴定结构变异几乎一样。详解如下:

  1. CPU:线程数,默认是 2 ,进行两基因组全序列比对时可使用,注意到,越多线程会使用越多内存,我测试大体水稻基因组的比对,那么一个线程大概要4G 内存。其实具体跟后续 BatchSize 参数有关系;
  2. Diff:三个基因组序列分歧度标准,如果似乎非常近源甚至是同个物种或品种,那么 OneInThousand,指代1000个碱基只有1个碱基不同;OneInHundred,指代100个碱基会有1个碱基不同。基本上,这两个可以处理绝大多数物种材料。当然,对于比如一些园艺作物,多年生,高杂合材料等等,不同材料的基因组差异可能会比较大,比如 FiveInHundread,指代100个碱基会有5个不同,这个已经支持了跨物种的比对,比如甜橙比对到荔枝... 按照需要来调整,这个可以提高灵敏度和准确性
  3. VarRange:共两个参数,一般如果是做多态性引物开发,30~200以及足够,再长也不方便跑PCR电泳区分
  4. BatchSize:每次读入内存,用于比对到数据块大小,会直接影响内存占用,500Mb 每次默认。如果发现基因组比较大,可以考虑降低,比如做到 200。
  5. Min Align Length for Cov Calc:如果一个 Alignment 长度低于给定值,比如 10000 ,就不参与覆盖度的计算。逻辑上对于两个物种单倍型比对,最好的比对结果 Cov 是 1 。不然可能是假阳性比对,对应了假SV。过滤长度,避免比对碎片影响 Cov 计算。
  6. Min Align Length for Var Calling:如果一个 Alignment 长度低于给定值,比如 50000,就不进行 SV 检测。逻辑上,过短的比对,也不适合做 SV 检测。当然,检测了SV,那么也考虑Cov的问题。
  7. MaqQ:如果比对质量低于给定值,那么不进行变异检测。逻辑上,可以只用 MapQ 60 。毕竟这个对应最高质量。需要注意的是,MapQ = 60 很容易达成。从某个角度来说,比对质量是基于 Query 来说的,查询序列没有更好或者相对较好的比对位置时,那么就会有 MapQ60。所以对于Subject来说,同一个位置可以有多个MapQ 的比对,但其中最好,逻辑上只有一个。当然那这个是展开。
  8. PrintSeq:结果文件中是否要包含SV相关序列,注意到如果 INS 或 DEL 非常大,那么这个序列会很长。

写在最后

Emmm,期望这个说明对有需要的朋友有帮助。

上一篇下一篇

猜你喜欢

热点阅读