ASV和OTU有什么不同?哪个更好?
遇到了一个16S的课题,于是开始认真学习ASV和OTU的差别,顺手整理一下。
扩增子测序和鸟枪法测序已经成为微生物组领域最常见的研究手段。尽管鸟枪法测序可以为我们提供更高分辨率和更全面的物种信息以及基因信息,但是该方法的成本高昂,对运算资源和样本的要求也更高。比如,生物量较低的样本通常难以满足鸟枪法测序对样本DNA量的要求,往往会通过全基因组扩增法(WGA)提高DNA量,然而WGA容易引入误差,对样本测序结果会造成一定的影响。因此,当前仍有许多研究采用16S或ITS等方法来探究不同地方的微生物组。
然而,使用扩增子测序法得到的结果,也就是当我们靶向检测某段基因序列的时候,更容易受到测序错误引起的SNV的影响,从而导致序列分类错误,最终造成检测到相似、但不正确的微生物,或错误地以为发现了新的微生物。而在全基因组测序的情况下,这种由于测序错误引起的SNV的影响就比较小,通常不会影响序列最终的比对结果。
针对扩增子测序的这一问题,目前有两种常用的分析策略——OTU和ASV,来降低测序错误造成的影响。近年来,我们可以发现,越来越多的文章开始采用ASV,而抛弃OTU。那么,ASV和OTU之间到底有什么差别呢?
首先从扩增子测序(以16S rDNA测序为例)说起。
下述内容主要来源于ZYMO RESEARCH的视频:https://www.zymoresearch.com/blogs/blog/microbiome-informatics-otu-vs-asv
Target Sequencing
扩增子测序是Target Sequencing的一种,其目的是通过对细菌的16S rDNA区域进行扩增测序,来区分不同的物种。那么为何要选择16S rDNA呢?或者说我们应该选择怎样的区域,才能确定一个样本的物种组成呢?
图片来源:ZYMO RESEARCH
第一,考虑到要检测不同物种,那么被检测的区域一定是能够特异性代表某一物种的区域,也就是高变区域。
第二,考虑到要用同样的引物扩增不同物种,所以这个高变区域两端要具有一段在不同物种间高度保守的区域。
第三,最好对这一区域已经有比较充分的研究和理解,这样也能保证有相应的数据库纳入被测区域的序列,以进行物种注释。
总结而言,就是以下4点:
(1) Sequencable highly conserved regions surrounding variable regions.
(2) Present in potential target species.
(3) Reasonably well-characterized and understood.
(4) Large existing database of reference sequences already avaliable.
而16S rDNA就是满足上述要求的一段区域。其产生的RNA,也就是16S rRNA实际上是原核生物的核糖体中30S亚基的组成部分。
然而,16S rDNA测序米面临着一些挑战,其中一个重要的挑战来源于测序的不完美。虽然二代测序的准确率已经非常高了,但是依然无法做到100%的准确性。而三代测序如Nanopore测序的准确性就更加低。而且这些错误并不是随机分布的,往往在某些区域更容易出现错误。
而这些由测序导致的错误,可能会导致物种注释错误,甚至让我们误以为发现了新物种。为了应对这种错误,研究人员先后提出了OTU和ASV两种手段。
什么是OTU
接下来让我们先聊一聊OTU。OTU本质上是就是一种聚类的方式,具体操作有3种策略:
(1)De Novo: 不依赖于数据库,基于自有数据进行聚类。不依赖于数据库,当样本数据发生变化时,结果可能会发生明显变化。
(2)Open Reference:依赖于数据库,将自有数据与数据库提供的代表性序列进行聚类,可以与其聚成一类的被视为统一物种,无法与其聚成一类给予新的标识。
(3)Closed Reference:依赖于数据库,将自有数据与数据库提供的代表性序列进行聚类,可以与其聚成一类的被视为统一物种,无法与其聚成一类的数据被丢弃。速度快,但是结果取决于数据库的质量。
通常在聚类时,将identity设置为97%及以上。然后聚成一类的序列就被视作为一个OTU。
测序错误?
但是,如果存在测序错误呢?
假如我们发现有这样三段序列,它们之间只有几个碱基的差异,测序获得的Count数上也显著不同:中间的棕色测到了10,000次,紫色的15次,粉色的2次。
图片来源:ZYMO RESEARCH
那么结合测序的准确率,我们可以建立error model,获得一个期望值,并计算pvalue,以判断哪些是真实存在的序列,哪些是测序错误导致的。
图片来源:ZYMO RESEARCH在判断哪些是测序错误的序列之后,我们就可以将这些序列从我们的数据中剔除,获得真实准确的序列。
而上述过程其实就是ASV的核心。
什么是ASV
那么ASV和OTU之间有什么异同呢?
图片来源:ZYMO RESEARCH实际上,简单来讲ASV就是在去除了错误序列之后,将Identity的标准设为100%进行聚类。因为不存在测序错误的情况下,即你的数据全都是真实的,那么也就意味着只有相同序列才是来自于同一个物种的,所以此时的identity应该设置为100%。
ASV相比于OTU具有多个优点:
(1)因为identity为100%,所以当你增加样本时,或者与其他研究的ASV数据结果进行比较时,结果具有一致性和可比性。
(2)只有在进行物种注释的时候才需要参考基因组。
(3)每一个ASV对应一个准确的序列。当不同物种对应同一个ASV的时候,意味着它们之间这一段序列具有一致性,即共有这一段序列。
(4)更容易检测嵌合体。
不过ASV也并非完全没有问题,比如样本中存在某些极低丰度的物种,可能会被当成测序错误而被剔除。
此外,ASV好用重要前提是你的数据能够建立一个合适的error model,准确检测到错误的序列。
今天就讲到这里啦~如有什么错误,欢迎大家指正。
参考文献:
- Blaxter M, Mann J, Chapman T, et al. Defining operational taxonomic units using DNA barcode data. Philos Trans R Soc Lond B Biol Sci. Oct 29 2005;360(1462):1935-43. doi:10.1098/rstb.2005.1725
- Kunin V, Engelbrektson A, Ochman H, Hugenholtz P. Wrinkles in the rare biosphere: pyrosequencing errors can lead to artificial inflation of diversity estimates. Environ Microbiol. Jan 2010;12(1):118-23. doi:10.1111/j.1462-2920.2009.02051.x
- Callahan BJ, Wong J, Heiner C, et al. High-throughput amplicon sequencing of the full-length 16S rRNA gene with single-nucleotide resolution. Nucleic Acids Research. 2019;47(18):e103-e103. doi:10.1093/nar/gkz569
- Callahan BJ, McMurdie PJ, Holmes SP. Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. The ISME Journal. 2017/12/01 2017;11(12):2639-2643. doi:10.1038/ismej.2017.119
- Caruso V, Song X, Asquith M, Karstens L. Performance of Microbiome Sequence Inference Methods in Environments with Varying Biomass. mSystems. 2019;4(1):e00163-18. doi:10.1128/mSystems.00163-18
- Gevers D, Knight R, Petrosino JF, et al. The Human Microbiome Project: a community resource for the healthy human microbiome. PLoS Biol. 2012;10(8):e1001377-e1001377. doi:10.1371/journal.pbio.1001377
- Edgar RC. Accuracy of microbial community diversity estimated by closed- and open-reference OTUs. PeerJ. 2017;5:e3889. doi:10.7717/peerj.3889
- Callahan BJ, McMurdie PJ, Rosen MJ, Han AW, Johnson AJ, Holmes SP. DADA2: High-resolution sample inference from Illumina amplicon data. Nat Methods. Jul 2016;13(7):581-3. doi:10.1038/nmeth.3869
- Nearing JT, Douglas GM, Comeau AM, Langille MGI. Denoising the Denoisers: an independent evaluation of microbiome sequence error-correction approaches. PeerJ. 2018;6:e5364-e5364. doi:10.7717/peerj.5364
- Amir A, McDonald D, Navas-Molina JA, et al. Deblur Rapidly Resolves Single-Nucleotide Community Sequence Patterns. mSystems. Mar-Apr 2017;2(2)doi:10.1128/mSystems.00191-16
- Edgar RC. UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing. bioRxiv. 2016:081257. doi:10.1101/081257