宏基因组

宏基因组测序分析(八)宏基因组数据组装

2023-08-21  本文已影响0人  Bioinfor生信云

宏基因组组装

基因组组装,即把短的reads拼装成连续的序列(contig),再根据PE或者long reads等比对关系将contig拼接成scaffold。


Kmer

从一段连续序列中迭代地选取长度为K个碱基的序列,若序列的长度为L,那么可以得到L-K+1个Kmer。

组装算法

DBG:De Bruijn Graph

主要用于二代测序短reads的组装,基于Kmer的连接


OLC:Overlap Layout Consensus

多用于三代长reads组装,基于比对的Overlap结果大于阈值连接。


二代测序数据组装流程

宏基因组组装挑战

宏基因组组装软件评估

宏基因组组装常用软件为 megahit 及 metaspades。

参考脚本

使用 megahit 进行组装:

megahit \
-1 ./A1_1.fq.gz \ # 输入,fq1
-2 ./A1_2.fq.gz \ # 输入,fq2
--min-contig-len 1000 \ # contig最小长度
--tmp-dir ./ \ # 设置tmp目录
--memory 6 \ # 内存占用
--num-cpu-threads 4 \ # 线程数
--out-dir A1_megahit \ # 输出目录
--out-prefix A1 # 输出前缀
## 多组数据组装, 输入数据逗号分隔

使用 metaspades 进行组装:

## 单组数据组装
spades.py \
--meta \ # 宏基因组模式
-t 4 \ # 线程
-k 21,33 \ # kmer
-1 ./A1_1.fq.gz \ # 输入,fq1
-2 ./A1_2.fq.gz \ # 输入,fq2
#-k 21,33,55,77 \ 多组数据组装
#--pe-1 1 ./A1_1.fq.gz \ #输入,第1组fq1
#--pe-2 1 ./A1_2.fq.gz \ #输入,第1组fq2
#--pe-1 2 ./A2_1.fq.gz \ #输入,第2组fq1
#--pe-2 2 ./A2_2.fq.gz \ #输入,第2组fq
-o A1_metaspades # 输出目录

组装结果可以使用 quast 进行汇总统计:

quast.py ./*.fa

欢迎关注Bioinfor 生信云

上一篇 下一篇

猜你喜欢

热点阅读