生信工具生物信息学与算法二代组装

Meta组装小课题2:GapCloser

2018-01-26  本文已影响1258人  周运来就是我

宏基因组复杂样品基因组的组装(无参考基因组)

什么是Gap以及它是怎样产生的

Gap : 序列中未确定的区域,通常用N或n表示。

为什么要GapCloser?

为了使组装的序列更完整

怎样进行GapCloser?

补洞:

得到的scaffold中间会有较多的gap,为了使组装的序列更完整,需再次利用测序的双末端数据之间的配对关系连接contigs,并利用测序数据与已经组装的contig之间的覆盖关系对contig之间空隙进行补洞,延长contigs,补洞后的contigs长度相比补洞之前一般增加2-7倍。

GapCloser

SOAPdenovo-63mer all -d 1 -M 3 -R -u -F -s KB1.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err

-d  <int>         去除kmers频数不大于该值(kmerFreqCutoff)的k-mer,默认值[0] ##最小化错误测序带来的影响
-M  <int>         在contiging操作时,合并相似序列的强度,默认值为[1],最小值0,最大值3。#deal with heterozygosis
-R  (optional)    移除repeats,使用pregraph步骤中产生的结果,如果参数-R在pregraph步骤中被设置的话,默认[NO]
-u  (optional)    构建scaffolding前不屏蔽高/低覆盖度的contigs,这里高频率覆盖度指平均contig覆盖深度的2倍。默认[mask]屏蔽
-F  (optional)    对scaffold内部的gap进行填充,这个参数现在似乎没什么用,因为SOAPdenovo附带了一个Gapcloser工具,就是用于scaffold内部填充的。
-s  <string>      solexa reads 的配置文件
-K  <int>         输入的K-mer值大小,默认值[23],取值范围 13-127 #K-mer值必须是奇数;组装杂合子基因组的K-mer值应该小一点;组装含有高repeats基因组且要求其有高的测序深度和长的reads,的K-mer应该大一点。
-o  <string>      图形输出的文件名前缀

SOAPdenovo补scaffold内部N的脚本

Command Line Options
A typical command line:

    GapCloser –b config_file –a scaffold_file –o output_file

参数说明:

-a 输入scaffold文件名
-b 输入library文件名,同SOAPdenovo library文件
-o 输出文件名
其他参数详见Gapcloser Manual

GapCloser-bin-v1.12-r6.tgz for SOAPdenovo

还有很多软件相继被发布,以应对人们对组装质量的不同要求:

A Scaffold Analysis Tool Using Mate-Pair Information in Genome Sequencing
MyBioSoftware
不同长度mate-pair在组装上之差异

对GapCloser依然去除不了的N(即不确定性)从N连续处打断,得到不含N的scaftigs.过滤掉小于长度500bp的scaftigs,进行统计分析和后续基因预测。

上一篇下一篇

猜你喜欢

热点阅读