NGS生信分析生信基础信息学习

蛋白质组学知识背景及分析流程

2021-10-18  本文已影响0人  Seurat_Satija

蛋白质组知识背景

蛋白质组(proteome):由一个细胞、一个组织或一个机体的基因组所表达的全部相应的蛋白质,是一个整体的概念。

蛋白质组学(proteomics):以蛋白质组为研究对象,从蛋白质整体水平来认识重合活动规律的科学,是后基因组计划的重要组成部分。

蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后的修饰、蛋白质与蛋白质相互作用等,由此获得蛋白质水平上的关于疾病机理、细胞代谢等过程的整体而全面的认识。

蛋白质组学分类

image

常用的是非标Label Free,以及标记的iTRAQ分板技术。

定量蛋白组学

定量蛋白组学:研究不同条件下蛋白表达水平的变化(上下调情况)。

image

iTRAQ知识背景

iTRAQ的全称是Isobaric tag for relative and absolute quantitation,翻译为中文就是同重元素标记的相对与绝对定量技术。这是由AB SCIEX公司研发的一种体外同重同位素标记的相对与绝对定量技术。该技术利用同位素试剂可同时标记8个多肽样品,标记的多肽样品等量混匀后,经液相色谱分离及串联质谱(MS/MS)分析,可得到各肽段的一、二级质谱信息。

在一级质谱中,不同样品来源的同一肽段表现出相同的质荷比;

在二级质谱中,化学键断裂释放出iTRAQ报告离子,在质谱低质量区产生了8个报告离子峰,其强度反应了该肽段在不同样品中的相对表达量信息,另外二级质谱中的肽段碎片离子峰质荷比反应了该肽段的序列信息;这些质谱原始数据经过数据库检索,可得到蛋白质的定性和相对定量信息。

iTRAQ技术在微生物抗协迫机制和动植物发育分化机理研究及医学生物标记物筛选领域都有广泛应用。

iTRAQ:采用4种或8种同位素标签,通过特异性标记多肽的氨基基团,进行串联质谱分析从而比较不同样本中蛋白质的相对含量,其特点是:

定量蛋白质组原理

iTRAQ试剂

这几个试剂的结构如下所示:

image

(图片来源于:Aggarwal S., Yadav A.K. (2016) Dissecting the iTRAQ Data Analysis. In: Jung K. (eds) Statistical Analysis in Proteomics. Methods in Molecular Biology, vol 1362. Humana Press, New York, NY,277)

iTRAQ的实验流程原理

在质谱峰图中,虽然不同样本带有不同的同位素标签,但是经过质量平衡基因的平衡,任何一种试剂标记不同样本中的同一蛋白多肽表现为相同的质荷比,从而形成单一的峰。

在串联质谱结果中,经过激光通量轰击肽段,iTRAQ试剂的三部分之间的键断裂,平衡基因断裂,平衡基团丢失,不同同位素标签的同一多肽的离子信号表现为不同质荷比的峰,因此可根据波峰的高度和面积比较同一蛋白不同处理的定量信息,如下所示:

image

(图片出处为:Aggarwal S., Yadav A.K. (2016) Dissecting the iTRAQ Data Analysis. In: Jung K. (eds) Statistical Analysis in Proteomics. Methods in Molecular Biology, vol 1362. Humana Press, New York, NY,P278)

一级质谱:

二级质谱:

常规实验流程

image.png

实验流程如下所示:

image.png

第一步:蛋白酶解样本,也就是将蛋白样本酶解为肽段;

第二步:使用iTRAQ同位素标记,也就是使用不同的iTRAQ标签来标记不同的肽段样本;

第三步:SCX预分级,使用强阳离子交换SCX(HPLC)将肽段分为多个组分;

第四步:使用LC-MS对每个组分进行质谱检测。

质谱仪的组成部分

蛋白质谱的核心就质谱,原理就是样本在特定条件下转变为高速运动的离子,根据离子质荷比的不同在静电场和磁场作用下进行分离,再用特定检测器记录不同质荷比的各离子的相对强度并形成质谱图。

质谱仪

质谱仪:在真空状态下分析离子的质荷比m/z,质谱仪主要是由离子源、质量分析器和离子检测器组成,iTRAQ技术中常用LC-MS/MS,液相色谱串联质谱。

质量分析器的参数

质量分析器的质量范围是指测定质荷比范围,它决定了能检测到的离子范围,例如ESI离子源可产生许多质荷比大于3000的离子,但是如果质量分析器的上限达不到3000,则就无法检测大于3000的离子。

分辨率:观测到的质谱峰的质荷比/半峰高处的峰宽(FWHM)。

不同类型质量分析器的比较

不同质量分析器有不同的分辨率,其中傅里叶>轨道阱>时间飞行>离子阱>四级杆,具体的参数如下所示:

image

市场上不同型号质谱仪的比较:

image

其中在使用iTRAQ分析时,比较常用的是Thermo的Q-Exactive与Q-Exactive HF。

实验方案设计

教学视频中的案例是植物方向,其实原理跟动物方向一样的,以下的都是植物蛋白质谱的实验设计。

方案设计-生物学重复

  1. 至少设置3个以上的生物学重复;
  2. 为了增加实验结果的可靠性,可通过增加质谱的技术重复上机次数;
  3. 严谨的实验通常进行3次生物学重复和3次技术重复,也就是一共9批MS数据;
  4. 出于经费考虑,有的文献也只进行2-3次技术重复(在动物实验方面,技术重复就是同一个样本上3针质谱即可)。

方案设计-不同组样本的标记选择和上机组合

两组样品

常见的组合包括2组,3组,4组,5组,6组样本,现在以植物干旱无罪推定研究为例说明一下。

假设我们有2组样本,对照组这里用CK表示,它表示正常浇水;实验组使用Treatment不胜感激,它表示不浇水3天,现在有2个方案:

第一个方案:每组2个生物学重复,1个3标;

第二个方案:第组3个生物学重复,1个6标,如下所示:

image.png

三组样本

现在将实验扩展一下,我们使用3组:

对照组:CK,正常浇水;

干预组不浇水,包括2组:

不浇水3天:T1

不浇水6天:T2

第一个方案:每组两个生物学重复,1个6标;

第二个方案:每组3个生物学重复,3个4标或1个9标,如下所示:

image

四组样本

对照组:CK,正常浇水

处理组:Treatment

不浇水3天:T1

不浇水6天:T2

不浇水9天:T3

方案一:每组2个生物学重复,1个8标;

方案二:每组3个生物学重复,3个4组,如下所示:

image

五组样本

对照组:CK,正常浇水

处理组:Treatment

不浇水1天:T1

不浇水2天:T2

不浇水3天:T3

不浇水4天:T4

方案一:每组3个生物学重复,3个5标;

方案二:每组3个生物学重复,3个6标,如下所示:

image

实验方案小结

蛋白数据分析流程

iTRAQ定量蛋白组数据分析流程如下所示:

image.png

从质谱仪上拿到的数据是原始质谱数据,然后要将原始数据进行一个数据格式转换,数据转换后,要进行搜库来鉴定蛋白质,这一步是要看找到了多少个蛋白质,随后对找到的蛋白进行蛋白定量。

定量后就是各种分析,包括GO,KEGG,蛋白相互作用等。

[一]搜库

搜库是指通过实验得到的谱图与数据库中的理论谱图进行匹配,得到可能的肽段序列,从而鉴定蛋白质,进行搜库的操作就是将质谱仪得到的谱图输入到搜库软件,常用的搜库软件包括:

数据的产生其实就是:蛋白->肽段->谱图;而数据分析就是这个过程的逆过程,即谱图->肽段->蛋白

整个流程如下所示:

image.png

搜库的原理

搜库软件运行的主要步骤包括:

  1. 从数据库中选择分子量与输入值相等的肽段;
  2. 形成理论碎片,并进一步生成理论谱图;
  3. 将实验谱图与理论谱图进行匹配;
  4. 对匹配进行打分;
  5. 按打分进行排序,通过统计学分析,确定最佳的匹配结果并导出。

流程示意图如下所示:

image.png

搜库数据库的选择

数据库的选择是基于质谱数据的蛋白质鉴定策略中的重要一步,最终鉴定到的蛋白序列都来源于被选择的数据库。

蛋白质谱鉴定的结果

定量蛋白质鉴定数目一般在几千左右,远少于转录组检测的表达的基因数目和参考基因组的基因数目,如下所示:

image

右上图是根据分析量来确定的蛋白数据,右下图是根据肽段来确定的鉴定的蛋白数目。蛋白鉴定的数目跟转录鉴定的基因不在一个数量级上,这是因为蛋白质谱在实验的通量,数据库,实验技术方面都有一定的局限。

[二]蛋白质功能注释

通过搜库对蛋白质进行鉴定后,接着就是对这些搜到的蛋白进行功能注释,这有助于了解蛋白的功能,从而解析样本相关表型,常用于功能注释的数据库有:GO、COG、KEGG、NR、Pfam、Swiss-Prot,下图是一个玉米的项目,玉米的蛋白在各个数据库中的注释结果:

image

数据库介绍

NR

全称是Non-redundant protein sequences,包含GenBank所有编码序列,以及PDB,swissprot,PIR,PRF数据库的所有编码序列的一个非冗余数据库,其数据库完整度高;这是一个氨基酸序列数据库。

Pfam

全称是Protein families database,通过蛋白序列的比对建立了每个家族的氨基酸序列的HMM统计模型,是最全面的蛋白结构域注释的分类系统;通过识别蛋白质的结构域序列,可以预测蛋白质的功能。

Swiss-Prot

这是上EBI维护的数据库,主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列;注释结果包括对蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等待,注释结果无冗余。

COG

全称是Clusters of Orthologous Groups of proteins,这是一个蛋白质直系同源数据库。通过对菌类,藻类和真核生物等66个完整基因组的编码蛋白,根据系统进化关系构建而成。这对于预测单个蛋白的功能和整个基因组中蛋白质的功能具有重要的作用。

GO与KEGG

常见,不介绍。

[三]定量

蛋白定量原理回顾

先来了解一下iTRAQ蛋白质定量的原理,如下所示:

image

蛋白定量分析工具

核心的值有3个:

  1. 在谱图/肽段水平进行1%FDR的过滤(PSM-level PDF<=0.01),获得显性性鉴定的谱图和肽段列表。
  2. 基于简约原则(the parsimony principle), 利用肽段进行蛋白组装,并生产一系列的蛋白组。
  3. 在蛋白质水平以FDR 1%再次进行过滤(Protein-level FDR<=0.01),以控制蛋白的假阳性。

IQuant的工作流程为:

蛋白质过滤 --> 报告基团标签纯度校正 --> 定量值归一化 --> 缺失值补全 --> 蛋白定量值计算 --> 统计检验

[四]差异蛋白筛选

对蛋白进行定量后,需要对蛋白的差异进行筛选,筛选的内容包括3个,如下所示:

现在来看一个差异计算后的结果:

image

第1列是蛋白名称;

第2列到第4列是3个生物学重复;

第5列与第6列是FC与pvalue。

[五]富集分析

富集分析常见的就是GO分析与KEGG分析,不介绍。

[六]表达聚类和蛋白互作

表达聚类分析的核心就是热图与聚类图,不介绍。

蛋白相互作用通常使用的数据库是STRING数据库,它能分析预测差异蛋白质之间的互作关系,这个数据库的主要信息如下

image

案例解析

先来看一篇文献,文献内容如下所示:

Liancheng Wu, Shunxi Wang, Lei Tian, Liuji Wu, Mingna Li, Jun Zhang, Pei Li, Weiqiang Zhang, Yanhui Chen
Comparative proteomic analysis of the maize responses to early leaf senescence induced by preventing pollination,Journal of Proteomics,Volume 177,2018,Pages 75-87,ISSN 1874-3919.

研究背景

玉米是一种一年生作物,叶片衰老的过早或过晚都可能会影响产量,在成熟后期,营养物质的再活化受到负面影响,导致幼叶的光合作用受损和系列能力下降,相反,过早的叶片衰老则阻碍了植物生长并降低其CO2的同化能力。叶片衰老是一个高度调控的过程,由几个称为衰老相关基因(SAGs)的基因介导,然后在蛋白质水平上仅鉴定了少数SAG。目前,使用蛋白质组学分析全体蛋白质波动比功能分析的转录组学更有效,因为蛋白质与功能更直接相关。本研究的目的是,研究玉米阻断授粉诱导叶片衰老过程中蛋白质的全局差异积累和代谢物质的变化。

叶片衰老的生理特征

叶片衰老通常与植物衰老以及开花和种子形成有关。叶色也与叶片衰老有关,是植物重合周期阶段的可见指标。叶片衰老时会出现一系列的生理过程,包括叶绿素分解、光合作用停止、蛋白质和核酸降解、分解代谢和营养物质的运输,以及细胞死亡反应,从而导致营养物质再循环到新发育的营养器官和生殖器官。

分子机制研究进展

叶片衰老可以通过许多环境和内源信号来调节,包括年龄、发育信号和植物生长调节剂。植物激素与植物中的各种生物过程(包括叶片衰老)相关,如外源施用脱落酸(ABA)可促进叶片衰老,内源ABA水平在几种植物叶片衰老后增加。

水杨酸(SA)是另一种对叶片衰老正调控的植物激素,而生长素、细胞分裂素和赤霉素对叶片衰老有负调控作用。

糖代谢是与叶片衰老相关的另一因素,如糖类直接应用于拟南芥的叶细胞会导致早衰。

表型分析-糖

实验材料:授粉(POL)和不授粉(NPNPOL)的玉米自交系Yu816。

发育时间:吐丝扣6天到21天(DAS)。

参数检测:叶片的可溶性糖含量和淀粉含量。

分析结果:

可溶性糖,6-18 DAS两种材料中均增加;21 DAS和POL中稍微下降,而NONPL的大量下降。

淀粉:趋势与可溶性糖类似,数据如下所示:

image

表型分析-叶片形态和叶绿素分析

image

iTAAQ蛋白组实验设计

样本数目:7组样本,8标,每个3个生物学重复

实验材料:玉米自交系Yu816

实验处理:授粉(POL)、不授粉(NONPOL)

取样部位:叶片

取样时间点:吐丝后6天(DAS)、14天、18天和21天

生物学重复:3个

方法与仪器:iTRAQ、LC-MS/MS(Thermo Fisher Scientific, Q-exactive)

流程如下所示:

image

蛋白质组整体分析

文章的附件中列出了蛋白质谱的一些数据,得到了959464个广谱,其中150650匹配上肽段谱图,通过Mascot软件匹配上已知多肽,且28605个匹配上唯一多肽。

鉴定了6941个蛋白,其中4371个唯一蛋白时至少有两个以上肽段匹配的,数据如下所示:

image

筛选差异蛋白分析

image

差异蛋白功能分析—GO和KEGG分析

image

差异蛋白表达分析

表达分析的核心就是热图与聚类。

image image

文章最后使用WB进行验证,测序类文章中基本上都要有验证,这一部分略去不表。

文章到此就结束了,整个文献的数据分析思路如下所示:

image

简化一下就是下图:

image

参考资料

  1. iTRAQ标记定量蛋白质组学.辉骏生物
  2. iTRAQ(稳定同位素标记蛋白质组学技术)
  3. iTRAQ® Reagents
  4. [iTRAQ/TMT.MtoZ Biolabs Experit in Mass Spectrometry Analysis](iTRAQ/TMT.MtoZ Biolabs Experit in Mass Spectrometry Analysis)
    iTRAQ定量蛋白质组笔记(上)
上一篇下一篇

猜你喜欢

热点阅读