PacBio数据拆分之lima
一、背 景
PacBio最新三代测序仪Sequel II芯片实现了更高通路,同时已经支持barcode测序,这样方便混合多个组织、处理、物种等样本。
那么如何从pooling的数据中demultiplexing各个文库/样本的数据是需要考虑的问题。
早前,已经有开发者打造了一款用于数据拆分的软件,即lima。
[图片上传失败...(image-183c6e-1567041893469)]
image.pnggithub链接为: https://github.com/pacificbiosciences/barcoding
lima是针对PacBio单分子测序数据的一款标准的识别barcode序列的工具,从 SMRT Link v5.1.0就开始引入,使用简单,处理速度很快(500G原始subreads拆分约6小时)。可拆分raw subreads和CCS reads。
二、文库结构
由于PacBio建库方式与二代测序不同,其建库方式也存在多种形式。
例如,使用序列特异的引物构建哑铃型文库(RNA):
[图片上传失败...(image-9120ee-1567041893469)]
image.png更进一步,官方RNA建库流程建库得到引物、barcode序列结构如下:
[图片上传失败...(image-4c011f-1567041893469)]
image.png由引物和16-bp的barcode组成后接poly T,同时官方提供了24条primer-barcode序列组合,部分序列如下(PacBio官方下载):
[图片上传失败...(image-e91204-1567041893469)]
image.png而,DNA文库结构就简单的多,仅由引物和相同的barcode组成:
[图片上传失败...(image-a6e863-1567041893469)]
image.png三、拆分及注意事项
那么针对普通DNA的建库测序,其拆分只需要提供barcode序列进行匹配即可,故lima的使用也更为简单:
DNA数据拆分:
lima --split-bam-named in.bam barcode.fasta split.bam
barcode序列文件barcode.fasta:
bc1000
CTCTACTTACTTACTG
bc1001
GTCGTATCATCATGTA
bc1002
AATATACCTATCATTA
而针对RNA建库,由于其添加了5`primer可以用于判断RNA分子是否为全长,其使用方法如下:
lima --split-bam-named in.bam barcode.fasta split.bam
需要注意的是RNA建库的barcode是在逆转录的时候加进去的,序列应当为反向互补的,同时其还存在5` primer,barcode序列文件barcode.fasta:
primer_5p
AAGCAGTGGTATCAACGCAGAGTACATGGGG
bc1017_3p
ATATAGCGCGCGTGTGGTACTCTGCGTTGATACCACTGCTT
bc1018_3p
CACAGTGAGCACGTGAGTACTCTGCGTTGATACCACTGCTT
需要注意,RNA的barcode列表写法,必须有5引物,后缀为_5p,3
引物必须有3p作为后缀;5引物是固定的,3
引物由引物和barcode构成(反向互补)
拆分完成后会生成拆分后的bam及其索引文件:
split_in.primer_5p--bc*_p3.bam
split_in.primer_5p--bc*_p3.bam.pbi
split_in.primer_5p--bc*_p3.subreadset.xml
其命名以前缀、5-3
引物名称连接组成。