生信专题三代转录组组装

pacbio 三代全长转录组数据分析流程

2020-10-08 本文已影响0人生信小院

Iso-seq基础概念，转载自https://blog.csdn.net/weixin_34384681/article/details/85937505
Iso-seq , 全称叫做 Isoform-sequencing, 是 Pacbio 公司对自己开发的转录本测序技术的规范化命名；是利用三代测序长读长的特点，不打断转录本，直接测序，从而得到全长转录本的一种测序技术。

1）ROI

了解过三代测序数据分析的人，对于CCS 环形一致性序列的概念肯定不会陌生，在iso-seq中，提出了比CCS 更加灵活的一个概念：ROI

ROI , 全称 reads of insert，可以理解为插入片段，首先看下三代测序文库构建阶段的reads示意图：

1.png

对于上述的文库片段，测序产生的reads 示意图如下：

image

由于是一个环状分子，随着测序反应的进行，会循环测序；如果把插入片段的正负链都测了一次，就做1个full pass;

对于CCS 而言，要求至少有2个full pass , 才能去生成CCS reads; 三代测序的特点就是读长很长，可以达到十几kb, 对于短的插入片段而言，CCS这样定义当然没有问题，但是对于全长转录本

而言，转录本长度很长，比如转录本长度1kb, 读长3kb, 此时在一个零模波导孔（ZMW）中测序的reads 就不可能达到2个full pass , 也就产生不了CCS reads, 为了解决这个问题，提高reads的利用率，提出了ROI 的概念，ROI 指的就是插入片段，上图测序reads 产生的ROI 如下：

image

ROI 不要求满足2个full pass，相对CCS 而言，更加适合全长转录本的分析；

2）artifacts

可以理解为，共有两种来源：

Artificial Concatemer

image

这种序列是由于文库制备阶段，adapter 序列错误的将两条转录本的序列链接构成了一个环状分子，这个和adapter 浓度有关，通常这种reads 产生的比例很少，小于0.5%，在后续的分析中，这部分reads 需要去除

PCR Chimera

image

在PCR 反应中，由于不完全延伸的产物作为了下次扩增反应的引物，导致出现嵌合体序列，直观上看，就是PCR产物来源于两条或者多条reads；

PCR 产生的嵌合体序列，在PCR 反应体系中，这种序列是不可避免的，大约有3%的比例，在后续的分析过程中，可以借助软件去除这部分reads；

FL Reads

FL , Full-length reads, 全长转录本

从raw data 到 ROI , 在从ROI 去除 artifacts reads 之后，我们就得到了用于后续分析的clean reads;

clean reads 就已经是转录本的序列了，我们首先看一下clean reads 当中，哪些是全长转录本；哪些不是全长转录本，这个操作就是分类，classify

全长转录本的示意图如下：

image

对于全长转录本而言，其ROI reads 中包含5‘ primer 和 3‘ primer; 而且会出现polyA 为结构；（polyA 针对mRNA和部分lncRNA）

对于不同大小的文库，其全长转录本的比例也不同：

image

可以看到，文库片段越长，全长转录本的比例越低；

4） consensus transcript isoforms

一致性转录本序列，一个ZMW 产生一个转录本的reads, 肯定会有冗余的reads 出现，这是通过聚类（cluster）的方式，就全长转录本序列进行聚类，可以得到一致性的转录本序列；

数据分析流程：https://github.com/PacificBiosciences/IsoSeq/blob/master/isoseq-clustering.md

image.png

步骤

software install

$ conda install -c isoseq3 bioconda pbccs lima pbcoretools

Circular Consensus Sequence calling

$ ccs m54045_190809_102313.subreads.bam m54045.ccs.bam -j 20 --min-rq 0.9

image.png

Primer removal and demultiplexing

$ lima m54045.ccs.bam IsoSeqPrimers.fasta m54045.fl.bam -j 20 --isoseq --peek-guess

image.png

image.png

Refine

$ isoseq3 refine m54045.fl.primer_5p--primer_3p.bam IsoSeqPrimers.fasta m54045.flnc.bam -j 20 --require-polya

image.png

Clustering Parallel Polishing

$ isoseq3 cluster m54045.flnc.bam clustered.bam --verbose --use-qvs

image.png

上一篇下一篇

猜你喜欢

热点阅读