SOAPdonova
SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图。
1.配置文件:config.file
cat config.file
max_rd_len=101
[LIB]
avg_ins=450
asm_flag=3
map_len=32
pair_num_cufoff=3
reverse_seq=0
rank=1
q1=seq500_1.fq.gz
q2=BGIseq500_2.fq.gz
全局信息:max_rd_len:任何比它大的read会被切到这个长度。
文库部分由[LIB]开始,并包含如下信息:
- avg_ins
文库的平均插入长度,或者是插入长度分布图的峰值。(科普:理论上插入片段长度是成正态分布的,并不是严格控制的)
- reverse_seq
这个选项有 0 或 1 两个选项,它告诉组装器read序列是否需要被完全反转。Illumima GA 产生两种 paired-end 文库:一是forward-reverse;另一个是 reverse-forward。"reverse_seq"参数应该如下设置:0,forward-reverse(由典型的插入长度少于500 bp的DNA末端片段生成);1,reverse-forward(由环状文库,典型的2 kb以上的文库生成)。
- asm_flags
决定reads哪一段会被利用,1(仅进行contig组装);2(仅进行scaffold组装);3(contig和scaffold都组装);4(只进行gap closure)。
- rd_len_cutof
组装器会过滤掉当前文库中到这个长度之间的reads。
- rank
为整数值,它决定在scaffold组装时reads被利用的顺序。文库中具有同样rank值的会被同时使用(在组装scaffold时)。
- pair_num_cutoff
该参数是成对number的 cutoff value,为了得到两条contigs的可靠的连接 或 pre-scaffolds。paired-end reads and mate-pair reads 的最小数量分别是 3 和 5.
- map_len
这个参数在“map”阶段生效,它是read 和 contig 的最小比对长度,用来建立一个可靠的read定位。
paired-end reads and mate-pair reads 的最小的长度分别是 32 和 35.
组装器接受三种read格式:FASTA, FASTQ and BAM。
Mate-pair关系:fastq中两个文件的同行序列;fasta中的邻行序列,bam文件比较特殊。
配置文件中,单端文件用"f=/path/filename" or "q=/pah/filename" 表示 fasta or fastq 格式。
双端reads被放在两个fasta文件中,分别为"f1=" and "f2="。fastq文件由"q1=" and "q2="表示。
双端reads如果全在一个fasta文件中,则用"p=" 选项;reads在bam文件中则用"b=".选项。
以上参数大多是可选的,如果你不知道怎么用,可以不设置,让软件使用默认参数。
#一站式运行方式
SOAPdenovo2-bin-LINUX-generic-r240/SOAPdenovo-63mer all -s config.file -K 31 -D 1 -o species> log
#分4布运行
${bin} pregraph -s config_file -K 31 -R -o graph_prefix 1>pregraph.log 2>pregraph.err
OR
${bin} sparse_pregraph -s config_file -K 63 -z 5000000000 -R -o graph_prefix 1>pregraph.log 2>pregraph.err
${bin} contig -g graph_prefix -R 1>contig.log 2>contig.err
${bin} map -s config_file -g graph_prefix 1>map.log 2>map.err
${bin} scaff -g graph_prefix -F 1>scaff.log 2>scaff.err