三分钟看懂TMT技术之分析质控篇

2021-01-19 本文已影响0人生信阿拉丁

作者：童蒙
编辑：amethyst

蛋白质组学在人类疾病研究应用已经有所展开，如癌症、皮肤病、心脏病等。研究包括寻找与疾病相关的单个蛋白，整体研究某种疾病引起的蛋白质表达或修饰水平的变化，利用蛋白质组寻找一些致病微生物引起的疾病的诊断标记和疫苗等。随着精准医疗时代的到来，蛋白质组学在药物研究、临床诊断和个性化治疗等方面将具有更为广阔的应用前景。

此前我们介绍了实验流程，今天我们给大家介绍一下分析流程中的质控篇。

整体分析流程概览

分析过程主要分为以下几个步骤：

数据质控。如果合格则进一步分析，否则重打质谱；
蛋白质鉴定：根据质谱信息，搜索到肽段，并且进行蛋白质的推断；
蛋白质定量：根据标签的丰度来确定蛋白质的含量，并进行相关分析；
差异分析：得到差异表达的蛋白质；
功能分析：针对差异蛋白在GO、KEGG、COG等数据库的注释及其富集分析、差异蛋白的互作分析等。

整体的分析过程如下图

酶切效率的质控

由于胰蛋白酶在水解蛋白质时候，识别氨基酸是K或者R，因此我们可以利用获得的肽段的序列来计算酶切位点的特异性。一般有四种可能性：

特异性酶切：肽段中不包含K或者R，表明该蛋白完全的水解；
C末端特异性酶切：仅N端是非特异性酶切的比例；
N末端特异性酶切：仅C端是非特异性酶切的比例；
非特异性酶切：两端都是非特异性酶切的比例；

通常酶切类型以第一种为主，特异性酶切比率越高越好。

统计结果示例如下：

意外修饰比例

蛋白质在被翻译后，通常会被进行各种修饰，例如去酰胺基（Deamidated）、脲甲基化（Carbamidomethyl）、氧化（Oxidation）等修饰。

意外修饰有以下几个方面的作用：

会造成实际离子质量发生变化，降低鉴定的成功率；
可以反映出样品保存效果和实验的处理方法是否得当；
可以反应试剂盒定量标记的标记效率，标记效率越高越好。

统计结果示例如下：

其中，Spectra_Num：修饰的谱图数；Spectra_Fre：修饰比例；Sites_Num：修饰的位点数；Sites_Fre：修饰比例。

举几个例子，给大家介绍一下：
TMT6plex[K]表示的是标记在赖氨酸（K）的TMT6plex的修饰。胰蛋白酶只能切割K或者R的C端（如下图），因此一般而言，最后一个氨基酸是K或者R。

而TMT的标记有两个连接位点，一个是K上，一个是肽段的N端。因此TMT6plex[K]表示的是在赖氨酸（K）的TMT6plex的修饰。

一般而言，这个被修饰的位点比例越高，则表明标记效率越好。

TMT6plex[AnyN-term]表示的是标记在N端的TMT6plex的修饰。其原理同上，一般而言，这个被修饰的位点比例越高，则表明标记效率越好。

Carbamidomethyl[C]表示的是C的脲甲基化。

色谱图的统计

酶切后的肽段进入HPLC（高效液相色谱），肽段会因为在色谱柱填料上的保留时间的不同，得到预分离。分离效果的好坏直接影响到质谱性能。示例如下图。

横坐标是一个肽段在二级谱中出现的次数，纵坐标是对应的谱图的数目。比如出现1次的肽段有100000个，出现两次肽段有2000个等。

这个图反映了色谱分离性能的好坏，我们期望色谱能够把某种蛋白足够的分离开，只出现一次。

色谱分离效果越好，只打谱一次的肽段占比越多，重复打谱的肽段越少。

质谱图的QC

对于搜库软件来说，二级碎片的信息主要是用来做肽段序列的质量信息推导的，碎片离子的信息越丰富越好。如果碎片信息太少或者二级碎片的intensity太低，都会造成鉴定结果不好。

质量偏差整体分布图

我们可以根据真实的测得的质量值与理论值进行比较，得到质量偏差的比例，然后绘制整体分布图。

正常而言，因为存在随机误差，应该是中心对称的图，如果出现小峰，则可能需要去检查相关过程。

下图为质量偏差分布图，图中一个点是一个鉴定结果。

横坐标为鉴定结果肽段的实际母离子质量和理论母离子质量的偏差，纵坐标为母离子质量偏差对应的打分。

质量偏差散点图

如果按照时间去检查每个时间下的质量偏差，那么就可以看出仪器的偏差情况，从而对实验有进一步的理解。如下图。

横坐标为打谱时间，纵坐标为鉴定结果中肽段的实际母离子质量和理论母离子质量的偏差。随着时间的推移，质量偏差应稳定在合理范围内，无明显波动。

蓝色的为正库结果，红色为反库的结果。

扩展解释

正库反库策略（target-decoy）

target database : 原始数据库，根据物种的蛋白序列模拟获得；
decoy database：反相数据库，将原数据库（target database）中的所有蛋白序列逐条反转，或随机打乱顺序。

有研究指出肽段谱图匹配中仅有（20%-40%）为可信匹配。反相数据库 (decoy database) 中的蛋白数目，长度，酶切后获得的多肽的数目，氨基酸组成均与原数据库相同，与原始数据库不同的是，这些多肽序列是虚构的，不可能在样品中存在。其主旨是构建实际并不存在的诱饵库（decoy）并与目标库（target）一起送入搜库引擎进行搜索，通过在序列库中加标签的方式来识别 PSM 究竟是来自诱饵库还是目标库，并应用于后续质控方法模型的构建中。

相信大家对TMT的质控有了初步的了解，大家继续关注我们后续的推出吧。

参考文献

Jiaming,Li. et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods( 2020).