qiime中OUTs聚类的三种方法
2020-09-05 本文已影响0人
肖ano
![](https://img.haomeiwen.com/i3437768/e4aae98f7d9b0e7c.png)
1、de novo OTU 聚类,是将所有序列直接按照两两之间的相似度,划分成一个个OTU,选取该OTU中丰度最高的序列作为该OTU的代表序列,然后用代表序列比对参考数据库,获得该OTU的物种注释。常用数据库有RDP、Silva及Greengene,由于GreenGene和RDP数据库一直没有更新,一般采用Silva数据库进行分析。
OTU注释数据库 优点:不依赖参考数据库,尤其是所研究的样品中含有的已知物种较少,如极端环境中。
缺点:受测序错误及嵌合体影响较大,说白了就是有些序列并非真实存在,是实验过程产生的“假序列”,用这种方法聚类时就会被误认为是一个独立的OTU,不过可以通过去嵌合体等分析手段缓解。
2、closed-reference聚类,这种方法是将序列与参考数据库直接比对,比对到同一参考序列的作为一个OTU,在OTU聚类的同时,也获得了该OTU的物种注释信息。
优点:所获得的OTU可信度高;另外,由于不同文章中检测的16S区域不同,如果要合并分析,不能用de novo OTU picking的方法聚类,因此只能用close-reference方法聚类。
缺点:只能得到已知物种的序列,丢失未知物种的信息。
3 、open-reference OTU聚类,具有上述两种聚类方法的特点,即将序列与参考序列比对,未比对上的序列再进行de novo聚类。兼具上述两种方法的优点,但无法用于不同16S区域的合并分析。
由于目前的参考数据库信息有限,所以OTU的注释结果中常见到一些uncultured*之类的没有分类信息。