Meta组装小课题2:GapCloser
什么是Gap以及它是怎样产生的
Gap : 序列中未确定的区域,通常用N或n表示。
-
读长限制产生gap:如,测序中的gap指的是测序极限读长以外的那段序列,比如我测序只能有双端150bp的读长,一个片段有350bp,那剩余的50bp就无从得知了。
-
组装技术限制产生gap:如,将测序得到的reads比对回得到的contigs,利用reads之间的连接关系和插入片段大小信息(Mate-Pair,),将contigs组装成scaffolds。scaffold序列中的未确定区域。
Contig2scaffold
为什么要GapCloser?
为了使组装的序列更完整
怎样进行GapCloser?
补洞:
得到的scaffold中间会有较多的gap,为了使组装的序列更完整,需再次利用测序的双末端数据之间的配对关系连接contigs,并利用测序数据与已经组装的contig之间的覆盖关系对contig之间空隙进行补洞,延长contigs,补洞后的contigs长度相比补洞之前一般增加2-7倍。
GapCloser- 一个参数 : F
SOAPdenovo-63mer all -d 1 -M 3 -R -u -F -s KB1.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
-d <int> 去除kmers频数不大于该值(kmerFreqCutoff)的k-mer,默认值[0] ##最小化错误测序带来的影响
-M <int> 在contiging操作时,合并相似序列的强度,默认值为[1],最小值0,最大值3。#deal with heterozygosis
-R (optional) 移除repeats,使用pregraph步骤中产生的结果,如果参数-R在pregraph步骤中被设置的话,默认[NO]
-u (optional) 构建scaffolding前不屏蔽高/低覆盖度的contigs,这里高频率覆盖度指平均contig覆盖深度的2倍。默认[mask]屏蔽
-F (optional) 对scaffold内部的gap进行填充,这个参数现在似乎没什么用,因为SOAPdenovo附带了一个Gapcloser工具,就是用于scaffold内部填充的。
-s <string> solexa reads 的配置文件
-K <int> 输入的K-mer值大小,默认值[23],取值范围 13-127 #K-mer值必须是奇数;组装杂合子基因组的K-mer值应该小一点;组装含有高repeats基因组且要求其有高的测序深度和长的reads,的K-mer应该大一点。
-o <string> 图形输出的文件名前缀
- 一个软件GapCloser
SOAPdenovo补scaffold内部N的脚本
Command Line Options
A typical command line:
GapCloser –b config_file –a scaffold_file –o output_file
参数说明:
-a 输入scaffold文件名
-b 输入library文件名,同SOAPdenovo library文件
-o 输出文件名
其他参数详见Gapcloser Manual
GapCloser-bin-v1.12-r6.tgz for SOAPdenovo
还有很多软件相继被发布,以应对人们对组装质量的不同要求:
A Scaffold Analysis Tool Using Mate-Pair Information in Genome Sequencing
MyBioSoftware
不同长度mate-pair在组装上之差异
对GapCloser依然去除不了的N(即不确定性)从N连续处打断,得到不含N的scaftigs.过滤掉小于长度500bp的scaftigs,进行统计分析和后续基因预测。