全长转录本的鉴定
作者:Arno
审稿:童蒙
编辑:angelica
全长转录组测序(Isoform-sequencing,Iso-seq)基于PacBio单分子实时测序技术(SMRT cell),凭借超长读长的优势,建库过程中无需打断RNA分子,直接对反转录的全长cDNA测序,得到从5’末端到3’PolyA尾的高质量全长转录本序列,且目前其CCS模式可以达到超高的准确率,可用来进行转录本鉴定、融合基因、可变剪切、精确地分析转录本的结构等分析。
全长转录组的文库结构
通过调取polyA尾的全长转录本序列,经反转录成cDNA之后,经过一定规模的扩增,然后进行cDNA损伤修复、末端修复、接头连接、外切酶处理等过程构建Iso-seq RNA文库,其文库构建过程如图一所示。
图一:Iso-seq文库构建过程构建后的哑铃型文库包含测序接头、引物、barcode以及插入片段,如图二所示:
图二:Iso-seq文库结构测序模式
PacBio根据其文库片段长度分为两种模式测序:
其一为CLR模式,对于较长的插入片段,DNA聚合酶的活性不足以支撑合成完全部插入片段,或者仅能合成完一圈多,得到的polymerase reads去除测序接头即为最长subreads;
第二种是CCS模式,对于较短的插入片段,DNA聚合酶的活性可以支撑合成多圈插入片段,此时去除完接头后即为完整的全长的插入片段,同一ZMW孔可产出多个subreads,对subreads进行相互的校验可以得到一致性序列,即CCS(Circular Consensus Sequencing)序列,其10X的准确率可达99.9%,30X可达99.999%。
转录本鉴定
完整的插入片段序列(Reads of Insert,ROI)一般具有以下特征:包含5’primer、3’primer,且3’primer前存在polyA序列,即Iso-seq文库结构图所示。
因此,理论上我们需要鉴定有这些特征的CCS即可,但实际上,建库过程中会产生嵌合体等非我们需要的序列,需要去过滤掉,整体的转录本鉴定流程可参考图三所示。具体鉴定过程以及实践如下步骤所示。
图三:转录本鉴定流程图Step1.Consensus generation
SMRT cell测序下机后经 smrtlink server初级处理,会将polymerase reads去除接头低质量序列等,转为subreads序列。
具体的用于后续分析的文件为:
movie.subreads.bam
movie.subreads.bam.pbi
movie.subreadset.xml
通过smrttools的ccs工具将subreads.bam转为ccs.bam,具体命令如下:
~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9 # 还可指定--min-passes以及线程数--num-threads
此过程比较耗费资源与时间,如果资源充足,想快速完成ccs的转换,可以对bam文件进行切割,分开转ccs,最后再合并。以下提供了两种并行转ccs的方式,供参考。
## step1. 拆分subreads.bam文件
~/software/smrttools/smrtcmds/bin/bamsieve movie.subreads.bam --show-zmws > ZMWs.xls
split ZMWs.xls -l 200000 -d -a 4 data_
for i in `ls data_*`;do echo ~/software/smrttools/smrtcmds/bin/bamsieve m64118_200224_124115.subreads.bam $i.bam --whitelist $i;done >split.sh
less split.sh|while read dd;do qsub -cwd -l vf=60G,p=10 -q jisuan.q $dd;done
## step2. 并行转ccs
for i in `ls data_*`;do echo ~/smrttools/smrtcmds/bin/ccs $i.bam ccs_$i.bam --min-rq 0.9 --min-passes 1 --num-threads 30;done >ccs.sh
less ccs.sh|while read dd;do qsub -cwd -l vf=20G,p=30 -q jisuan.q $dd;done
## step3. 合并ccs.bam,可使用samtools或pbmerge
samtools merge movieX.ccs.bam ccs_data_00*.bam
pbmerge -o movieX.ccs.bam ccs_data_00*.bam
## step1. 并行转ccs
ccs movieX.subreads.bam movie.ccs.1.bam --chunk 1/10 -j 303ccs movieX.subreads.bam movie.ccs.2.bam --chunk 2/10 -j 30
...
ccs movieX.subreads.bam movie.ccs.10.bam --chunk 10/10 -j 30
## step2. merge
samtools merge movieX.ccs.bam movieX.ccs.*.bam
pbmerge -o movieX.ccs.bam movieX.ccs.*.bam
Step2. Primer Removal
获得CCS序列之后,首先需要去掉文库构建过程中的5’和3’测序引物,如果带有barcode,同时也需要去除barcode序列,具体操作可按如下方式:
~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess
其中primer及barcode的格式如下,标签名称必须以“5p”,“3p“结尾,如果有多个3p barcode序列(即包含多个样本),则会同时按照此barcode序列进行拆分,拆分以及去除完引物之后会得到各自样本的bam文件。
文件名称包含引物序列标签:
movieX.fl.primer_5p--test1_3p.bam
movieX.fl.primer_5p--test2_3p.bam
1>primer_5p
2AAGCAGTGGTATCAACGCAGAGTACATGGGG
3>test1_3p
4CGCACTCTGATATGTGGTACTCTGCGTTGATACCACTGCTT
5>test2_3p
6CTCACAGTCTGTGTGTGTACTCTGCGTTGATACCACTGCTT
Step3. Isoseq3 refine
转录组文库在构建过程中可能会产生嵌合体,即同一个ZMW中两个转录本嵌合到一起。这种嵌合体的出现主要由以下两种情况产生:
- 其一是文库制备阶段,adapter序列错误地将两条转录本的序列连接构成了一个环状分子,这种情况一般和adapter浓度有关。
- 其二是在逆转录PCR反应中,因不完全延伸的产物作为了下次扩增反应的引物,从而出现嵌合体。
鉴于此,这一步需要做的就是对拆分完且去除完引物的CCS序列,进一步过滤,去除嵌合体序列。
~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20
Step4. Isoseq3 cluster & Polish
由于一个ZMW孔会产生一个转录本序列,即一个CCS,所以不同的CCS可能会是相同的转录本序列,即存在冗余的情况,因此需要再通过聚类(cluster)的方式,对全长转录本序列进行聚类,得到一致性的转录本序列。
Polish纠错是为了进一步提升转录本中碱基的质量,但是这一过程也是非常耗时,目前smrtlink v8版本及以上可以不必进行Polish,即可获得准确度大于0.99的高质量转录本(high-quality isoforms,HQ),和低质量转录本(low-quality isoforms,LQ)。
~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 cluster movieX.flnc.bam clustered.bam --verbose --num-threads 20 --use-qvs
~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 polish clustered.bam subreads.bam polished.bam # 非必须
以上步骤即可得到高质量的转录本序列,其输出结果有如下一些文件。
后续可用polished.hq.fasta.gz进行比对分析等。
polished.bam
polished.bam.pbi
polished.cluster
polished.cluster_report.csv
polished.hq.bam
polished.hq.bam.pbi
polished.hq.fasta.gz
polished.lq.bam
polished.lq.bam.pbi
polished.lq.fasta.gz
polished.transcriptset.xml
总结
全长转录本的鉴定是Iso-seq分析最重要的一步,鉴定出的转录本的质量也决定了后续分析的质量,高质量的转录本可以对转录本的结构进行精确的分析,当然也取决于后续的比对。
随着三代测序技术的发展,目前其准确度也已经可以KO普通的转录组分析了,如果你还不了解三代转录组的分析内容可以关注我们,希望可以让你学到更多。
参考资料
https://github.com/PacificBiosciences/IsoSeq
https://www.cnblogs.com/xudongliang/p/7473463.html