PacBio数据拆分之lima

2019-08-29 本文已影响0人浩渺予怀

一、背景

PacBio最新三代测序仪Sequel II芯片实现了更高通路，同时已经支持barcode测序，这样方便混合多个组织、处理、物种等样本。

那么如何从pooling的数据中demultiplexing各个文库/样本的数据是需要考虑的问题。

早前，已经有开发者打造了一款用于数据拆分的软件，即lima。

[图片上传失败...(image-183c6e-1567041893469)]

image.png

github链接为： https://github.com/pacificbiosciences/barcoding

lima是针对PacBio单分子测序数据的一款标准的识别barcode序列的工具，从 SMRT Link v5.1.0就开始引入，使用简单，处理速度很快（500G原始subreads拆分约6小时）。可拆分raw subreads和CCS reads。

二、文库结构

由于PacBio建库方式与二代测序不同，其建库方式也存在多种形式。

例如，使用序列特异的引物构建哑铃型文库（RNA）：

[图片上传失败...(image-9120ee-1567041893469)]

image.png

更进一步，官方RNA建库流程建库得到引物、barcode序列结构如下：

[图片上传失败...(image-4c011f-1567041893469)]

image.png

由引物和16-bp的barcode组成后接poly T，同时官方提供了24条primer-barcode序列组合，部分序列如下（PacBio官方下载）：

[图片上传失败...(image-e91204-1567041893469)]

image.png

而，DNA文库结构就简单的多，仅由引物和相同的barcode组成：

[图片上传失败...(image-a6e863-1567041893469)]

image.png

三、拆分及注意事项

那么针对普通DNA的建库测序，其拆分只需要提供barcode序列进行匹配即可，故lima的使用也更为简单：

DNA数据拆分：

lima --split-bam-named in.bam barcode.fasta split.bam

barcode序列文件barcode.fasta:

bc1000

CTCTACTTACTTACTG

bc1001

GTCGTATCATCATGTA

bc1002

AATATACCTATCATTA

而针对RNA建库，由于其添加了5`primer可以用于判断RNA分子是否为全长，其使用方法如下：

lima --split-bam-named in.bam barcode.fasta split.bam

需要注意的是RNA建库的barcode是在逆转录的时候加进去的，序列应当为反向互补的，同时其还存在5` primer，barcode序列文件barcode.fasta:

primer_5p

AAGCAGTGGTATCAACGCAGAGTACATGGGG

bc1017_3p

ATATAGCGCGCGTGTGGTACTCTGCGTTGATACCACTGCTT

bc1018_3p

CACAGTGAGCACGTGAGTACTCTGCGTTGATACCACTGCTT

需要注意，RNA的barcode列表写法，必须有5引物，后缀为_5p，3引物必须有3p作为后缀；5引物是固定的，3引物由引物和barcode构成（反向互补）

拆分完成后会生成拆分后的bam及其索引文件：

split_in.primer_5p--bc*_p3.bam

split_in.primer_5p--bc*_p3.bam.pbi

split_in.primer_5p--bc*_p3.subreadset.xml

其命名以前缀、5-3引物名称连接组成。

PacBio数据拆分之lima

猜你喜欢

热点阅读