『三代测序』

PacBio数据拆分之lima

2019-08-29  本文已影响0人  浩渺予怀

一、背 景

PacBio最新三代测序仪Sequel II芯片实现了更高通路,同时已经支持barcode测序,这样方便混合多个组织、处理、物种等样本。

那么如何从pooling的数据中demultiplexing各个文库/样本的数据是需要考虑的问题。

早前,已经有开发者打造了一款用于数据拆分的软件,即lima。

[图片上传失败...(image-183c6e-1567041893469)]

image.png

github链接为: https://github.com/pacificbiosciences/barcoding

lima是针对PacBio单分子测序数据的一款标准的识别barcode序列的工具,从 SMRT Link v5.1.0就开始引入,使用简单,处理速度很快(500G原始subreads拆分约6小时)。可拆分raw subreads和CCS reads。

二、文库结构

由于PacBio建库方式与二代测序不同,其建库方式也存在多种形式。

例如,使用序列特异的引物构建哑铃型文库(RNA):

[图片上传失败...(image-9120ee-1567041893469)]

image.png

更进一步,官方RNA建库流程建库得到引物、barcode序列结构如下:

[图片上传失败...(image-4c011f-1567041893469)]

image.png

由引物和16-bp的barcode组成后接poly T,同时官方提供了24条primer-barcode序列组合,部分序列如下(PacBio官方下载):

[图片上传失败...(image-e91204-1567041893469)]

image.png

而,DNA文库结构就简单的多,仅由引物和相同的barcode组成:

[图片上传失败...(image-a6e863-1567041893469)]

image.png

三、拆分及注意事项

那么针对普通DNA的建库测序,其拆分只需要提供barcode序列进行匹配即可,故lima的使用也更为简单:

DNA数据拆分:

lima --split-bam-named in.bam barcode.fasta split.bam

barcode序列文件barcode.fasta:

bc1000

CTCTACTTACTTACTG

bc1001

GTCGTATCATCATGTA

bc1002

AATATACCTATCATTA

而针对RNA建库,由于其添加了5`primer可以用于判断RNA分子是否为全长,其使用方法如下:

lima --split-bam-named in.bam barcode.fasta split.bam

需要注意的是RNA建库的barcode是在逆转录的时候加进去的,序列应当为反向互补的,同时其还存在5` primer,barcode序列文件barcode.fasta:

primer_5p

AAGCAGTGGTATCAACGCAGAGTACATGGGG

bc1017_3p

ATATAGCGCGCGTGTGGTACTCTGCGTTGATACCACTGCTT

bc1018_3p

CACAGTGAGCACGTGAGTACTCTGCGTTGATACCACTGCTT

需要注意,RNA的barcode列表写法,必须有5引物,后缀为_5p,3引物必须有3p作为后缀;5引物是固定的,3引物由引物和barcode构成(反向互补)

拆分完成后会生成拆分后的bam及其索引文件:

split_in.primer_5p--bc*_p3.bam

split_in.primer_5p--bc*_p3.bam.pbi

split_in.primer_5p--bc*_p3.subreadset.xml

其命名以前缀、5-3引物名称连接组成。

上一篇下一篇

猜你喜欢

热点阅读