微生物菌群多样性研究—原始数据质控

2021-04-24 本文已影响0人上海唯那生物

今天我们继续更新在微生物多样性研究过程中涉及到的知识点和常见的分析方法辨析。希望能给初入研究的小白在连载中滤清思路、获得启发。

菌群多样性分析是通过测序技术对微生物基因组中的marker基因（细菌为16S序列，真菌为18S或ITS序列）全长区段或部分区段进行测序从而得到环境样本中微生物种类和丰度信息的，基于现在的基因测序技术和菌群多样性的研究目的，对于marker基因的扩增、测序绝大多是通过二代测序技术来实现的。

图：细菌16S rDNA 结构来源：Lc Sciences

二代测序技术，也称高通量测序技术，其便宜、通量大、准确性高，是基因测序技术中的“半壁江山”，其下机数据也很有特点：

1、采用双端测序方法，一个样本对应两条序列数据；

2、下机数据都为短序列（150-250bp）（与二代测序测序原理有关）

3、序列末端碱基质量较低

图：现今主流二代测序平台来源：Illunina官网

在微生态的研究中，分析过程中的物种、丰度的信息全部是基于原始数据获得的，如果使用含有低质量碱基的序列进行后续分析的话，一定会造成最终分析结果的失真。

所以我们在拿到下机数据的第一步，必须进行序列的质量控制，去除低质量序列。

一般的质控流程为：

1、切除序列尾端碱基质量小于指定值（一般为20）的碱基。

去除方法一般分为两种，一种是简单的单碱基修剪，从末端开始依次读取碱基的质量值，若质量值小于指定值则进行删除，直到读取碱基质量高于指定值为止；

第二种方法是进行滑窗修剪，设定碱基数量滑窗，从末端开始以滑窗为单位进行修剪，直到滑窗内碱基平均质量均高于指定值。

2、过滤修剪后长度小于指定值的序列（通常为50bp）。

3、去除含N碱基的序列。

上述流程为通用流程，具体的过滤参数和步骤也会因测序公司的不同/实验室的不同有所差异。

通常我们称下机后的原始数据为 raw data ，质控后的数据为clean data。

搞定好数据质量问题下一步就可以通过序列的聚类与注释了解物种和丰度信息了。

如何进行物种注释，赶快去看之前的文章吧~菌群多样性分析-OTU聚类与注释

更多微生态相关文章：