生物信息学蛋白组学

宏蛋白质组研究概述

2019-11-06  本文已影响0人  生物信息与育种

前言

宏组学(Meta-Omics)是涵盖宏基因组学、宏转录组学和宏蛋白质组学的一门学科。其中宏基因组研究可以获知环境中微生物的物种组成,目前已经开展的如火如荼;宏蛋白组描述环境中微生物的蛋白表达,由于其研究的复杂性,目前还处于起步阶段,但蛋白水平的研究可以进行微生物群落的一致性、活性和功能分析,能够提供宏基因组无法获取的信息。

image

宏蛋白质组(Metaproteomics):是指特定时刻下,环境微生物所表达的所有蛋白Phillp L. Bond, 2004)。所研究种类非常多样化,比如活性淤泥中的微生物,海洋微生物,土壤中的微生物,发酵食品中的微生物,肠道微生物,粪便、黏膜腔等。

宏蛋白质组研究对象特性

1. 成分复杂,干扰物多

2. 微生物种类繁多

3. 受外界环境因素影响大(季节、温度、湿度等)

4. 空间位置复杂性

5. 存在其他生物:动植物

宏蛋白质组研究难点

宏蛋白质组研究存在的难点主要包括三个方面:样品制备、质谱检测、数据搜索

1. 样品制备

2. 质谱检测

3. 数据搜索

宏蛋白质组数据分析

宏蛋白分析流程

最重要也是最难的一步是数据库的构建:

宏蛋白质组分析的基础来自于宏基因组测序的精确结果,其数据库来源主要通过两种手段 :通过16s测序得到大体物种组成后在公共数据库中提取相应物种序列数据库进行整合;或者通过全基因组/转录组测序等手段深度测序样品中的DNA/转录组信息。

由于任一种建库方法都无法做到有效全覆盖,很多研究采用了多种来源数据库整合建库。

大体包括:

  1. 宏基因组测序;
  2. nr、ensembl或uniprot的微生物全库;
  3. 引用其他发表的文献中收集的数据库。

建库说明如下:

1.通过Metagenomics数据建库

image

目前测序的价格已经非常低廉,因此直接进行宏基因组测序的方法已经实用,在测序完成后将得到的数据库翻译成蛋白序列用于宏蛋白质组分析。但由于测序深度和读长的限制,还无法非常全面准确的覆盖完整的宏蛋白质组序列,需要其他方法作为补充。

2.公共数据库

目前NCBInr、Uniprot(Trembl、Uniref)均包含了数十万种细菌物种,数千万条序列,虽然和地球上已知的数千万种细菌物种相比还只是一小部分,但也足以作为测序数据库的有力补充。

3.第三方收集的数据库

有些研究会收集整理其获得宏蛋白质组数据库,我们可以参考其研究背景和对象,选择相近的数据库对自己研究的分析进行补充。类似的有 http://meta.genomics.cn

如下是两篇文献中类似的分析思路:

image

Critical decisions in metaproteomics: achieving high confidence protein annotations in a sea of unknowns.The ISME Journal2017

image

The impact of sequence database choice on metaproteomic results in gut microbiota studies.Microbiome 2016.

上一篇 下一篇

猜你喜欢

热点阅读