三代测序 说

三代测序 - 数据质控 | Bamboo

2025-05-19  本文已影响0人  三代测序说

深圳华大基因科技有限公司(华大集团)旗下公司杭州华大序风科技有限公司(CycloneSEQ-华大序风)于2024年3月21日注册成立,致力于通过纳米孔单分子测序技术的创新研发及落地应用。2024 年 9 月 9 日,在“登峰探极·生命可测”华大集团生命科学全球新品发布会上,华大集团 (华大智造)发布了名为 CycloneSEQ™ 的最新测序技术,并推出 CycloneSEQ-WT02(WT02,中文名“梧桐”)和 CycloneSEQ-WY01 (WY01,中文名“五岳”) 两款纳米孔测序仪(图1)。随后,在2025年3月1日的SEQ ALL联盟年度峰会上华大智造联合华大序风宣布G400-ER(更名后的CycloneSEQ-WY01)正式开售。

图1.CycloneSEQ-WT02和CycloneSEQ-WY01真机

作为一款纳米孔测序仪,现阶段测序所得的碱基质量会普遍偏低,根据官网性能参数的介绍,两款纳米孔测序仪的单次碱基准确率在97%左右,也就是Q15。因此,对下机数据进行质量查看质控是数据分析前重要的一步。对于三代纳米孔测序平台,查看数据统计信息和质量最常用的就针对牛津纳米孔(ONT)数据开发的Nanopack分析套装,如NanoPlotNanoCompNanoQC,以及老牌质控软件fastp针对三代长度长数据优化的fastplong。这些软件的使用方法在我以往的推文中都有详细的教程,大家可以自行查阅。

作为国产纳米孔测序仪,后续数据分析最理想的工具软件,是针对自家数据开发的算法,但是这需要时间和科研圈的集体贡献。华大序风专门建立了一个Github账号,CycloneSEQ Bioinformatics ,来发布他们针对CycloneSEQ下机数据分析的算法工具(图2)。现在已经有三款软件 Bamboo (数据质控),Glycine(鉴定全长cDNA)和Citrus(拆分barcode)。今天我就一起来看看Bamboo的安装和使用方法。

图2.华大序风github账号

一、软件介绍

Bamboo 是由华大序风开发的一款针对长读长测序数据的质量控制工具,支持无参(reference-free, or pre-alignment)或有参(reference-based, or post-alignment)QC,支持 fastq 或 bam 格式文件作为输入。现在最新版本为v0.2.2(2024.10.08)。作者为程瀚森 (Hansen Cheng),张嘉远 (Jia-Yuan Zhang),连明 (Ming Lian)。

Github: https://github.com/CycloneSEQ-Bioinformatics/Bamboo

二、软件安装

Bamboo暂时还不支持conda一键安装部署。如果你的conda环境下有samtoolsminimap2,这可以直接下载解压二进制文件。如果没有,则创建Bamboo的conda分析环境,然后安装samtoolsminimap2

# 创建名bamboo_env 的conda环境,安装samtools和Minimap2
$ conda create -n bamboo_env samtools minimap2

#下载软件
$ wget -c -t 0 https://github.com/CycloneSEQ-Bioinformatics/Bamboo/releases/download/v0.2.2/bamboo-0.2.2.tar.gz

#解压缩
$ tar -zxvf bamboo-0.2.2.tar.gz

#添加可执行权限,如果已经是可执行程序则可以跳过这一步
$ cd bamboo-0.2.2
$ chmod +x bamboo

#添加bamboo到环境变量,可以直接调用
$ echo 'PATH=/mnt/data/home/mli/Desktop/Software/bamboo-0.2.2:$PATH' >> ~/.bashrc && source ~/.bashrc

# 测试bamboo安装,查看帮助文档
$ bamboo --help

三、软件使用

根据不同的输入组合Bamboo可以进行不同的分析模式(图3),即:

图3.Bamboo不同分析模式流程图

1. 基本使用

无参QC模式

若只提供fastq文件,则执行无参QC,命令示例如下:

$ bamboo -i input1.fastq input2.fastq -o output_dir --sample_size 50000 --seed 123

其中,

注意:无参QC无并行模式,故设置 -t 参数无效。

有参QC模式

若同时提供bam文件和ref.fa,则执行有参QC,命令示例如下:

$ bamboo -b input.bam -r reference.fasta -o output_dir --realign

其中,

无参&有参QC模式

若同时提供fastq文件和ref.fa,则执行无参&有参QC,命令示例如下:

$ bamboo \
-i input.fastq.gz -r reference.fasta.gz \
-o test_bamboo_fastqtobam2 \
--sample_size 10000 \
-t 4 \
--align_all \
--minimap2_args "-ax map-ont --eqx --secondary=no"

其中,

2.结果说明/解读

分析结束后可以获得一个html网页报告,你可以下载到本地后,用浏览器打开

分别会得到以下结果但不限以下结果

1)无参分析Reference-free QC

图4.Sequencing summary (统计总结) 图5.Sequence length (序列长度) 图6.Sequence quality (序列质量) 图7. A/T/C/G碱基组成 图8.GC含量

2)有参分析Reference-based QC

图9.Mapping summary(比对总结) 图10.全基因组覆盖度 图11.Sequence accuracy(序列准确度) 图12.homo/heteropolymer区域的测序错误模式

四、帮助文档

usage: bamboo [-h] [-b BAM_PATH] [-r REFERENCE_PATH] [--realign] [--minimap2_path MINIMAP2_PATH] [--minimap2_args MINIMAP2_ARGS] [--samtools_path SAMTOOLS_PATH]
              [--align_all] [-i SEQUENCE_PATH [SEQUENCE_PATH ...]] [-o OUTPUT_DIR] [-t THREADS] [--sample_size SAMPLE_SIZE] [--seed SEED] [--keep-intermediates]

Bamboo v0.2.0: a tool for quality control and error profiling of long-read sequencing data.

optional arguments:
  -h, --help            show this help message and exit

Sequence analyses:
  Arguments for sequence analyses.

  -i SEQUENCE_PATH [SEQUENCE_PATH ...], --sequence_path SEQUENCE_PATH [SEQUENCE_PATH ...]
                        Path to the input FASTQ file. If multiple input files are supplied, they will be concatenated before analyses. (default: None)

Alignment analyses:
  Arguments for alignment analyses.

  -b BAM_PATH, --bam_path BAM_PATH
                        Path to the input BAM file. (default: None)
  -r REFERENCE_PATH, --reference_path REFERENCE_PATH
                        Path to the reference FASTA file. (default: None)
  --realign             Re-align sampled reads using Minimap2. Use this option if the input BAM file does not contain x/= CIGAR operations. (default: False)
  --minimap2_path MINIMAP2_PATH
                        Path to Minimap2 executable. (default: minimap2)
  --minimap2_args MINIMAP2_ARGS
                        Command line arguments for Minimap2 (default: -ax map-ont --eqx --secondary=no -t 8)
  --samtools_path SAMTOOLS_PATH
                        Path to samtools executable. (default: samtools)
  --align_all           When `--bam_path` is not specified, perform alignment for all input reads (rather than just the sampled reads) to the reference genome.
                        Aligning all reads will improve accuracy of sequencing coverage analyses, but can take a considerable amount of time. (default: False)

General arguments:
  General input/output arguments.

  -o OUTPUT_DIR, --output_dir OUTPUT_DIR
                        Directory to save output figures and reports. (default: bamboo_report)
  -t THREADS, --threads THREADS
  --sample_size SAMPLE_SIZE
                        The number of reads to be analyzed. Use --sample_size -1 to disable random sampling and analyze all reads in the input data. (default:
                        100000)
  --seed SEED           Random seed for sampling. (default: 42)
  --keep-intermediates  Do not remove intermediate data files generated in the analyses. (default: False)

参考文献

  1. CycloneSEQ-Bioinformatics/Bamboo/wiki
  2. 华大序风官网:https://cycloneseq.genomics.cn
上一篇 下一篇

猜你喜欢

热点阅读