蛋白质组学简介
Introduction
蛋白质组(proteome)是一个组织或细胞基因组中所表达的全部蛋白质的总和。蛋白质组学(proteomics)最初由澳大利亚学者Williams 和Wilkins 提出,目标在于阐述蛋白质组对应于基因组所表达的所有蛋白质构成的整体,即在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后的修饰、蛋白质与蛋白质相互作用等,由此获得蛋白质水平上的关于疾病机理、细胞代谢等过程的整体而全面的认识。
目前常规的基于MS的蛋白质组学中,蛋白质被酶解成肽段,然后通过LC-MS/MS进行分析获得图谱数据;然后搜库和分析转化,将峰信号转化为肽段/蛋白的表达矩阵数据。
常用技术
目前常见的技术可以分为:Bottom-up即质谱shotgun分析,是目前主流策略;Top-down即直接对完整的蛋白——包括翻译后修饰蛋白以及其它一些大片段蛋白测序;还有靶向蛋白质组学。
-
有参定量:
-
iTRAQ (isobaric tags for relative and absolute quantitation)技术是一种多肽体外标记技术,采用4种或8种同位素标签,通过特异性标记多肽的氨基基团,而后进行串联质谱分析;可同时比较4种或8种不同样品中蛋白质的相对含量或绝对含量。
-
SILAC:利用含轻、中或重型同位素标记的必需氨基酸(主要是Lys和Arg)对细胞进行标记培养5-6代。
-
-
相对定量(Label-free):
-
谱图计数(Spectral Counting):一个蛋白对应的二级谱图数目越多,丰度越高
-
基于离子流色谱峰(extracted ion current, XIC)的定量算 法(MaxQuant)
-
-
蛋白质芯片技术(protein chips)
-
yeast two-hybrid system
-
噬菌体展示技术(phage display)
Exploring available infrastructure
R packages
在Bioconductor 3.12版本中,可以利用的R语言类公共资源 包括138 proteomics 包, 94个 mass spectrometry software packages 加上 23 mass spectrometry experiment packages.
其中RforProteomics对蛋白组数据分析相关的R包做了总结,涉及方面主要包括质谱蛋白质组数据下载、访问、操作和可视化;以及无标签和有标签的定量数据处理和定量数据分析方法。
nstall RforProteomics
BiocManager::install("RforProteomics", dependencies = TRUE)
# exploring
library("RforProteomics")
pp <- proteomicsPackages()
display(pp)</pre>
Analysis tools
-
Analysis of post translational modification with
isobar
-
Analysis of label-free data from a Synapt G2 (including ion mobility) with
synapter
-
Analysis of spatial proteomics data with
pRoloc
-
Analysis of MALDI data with the
MALDIquant
package -
Access to the Proteomics Standard Initiative Common QUery InterfaCe with the
PSICQUIC
package -
agriGO: a GO analysis toolkit for the agricultural community.
-
FunRich:基因和蛋白质的功能富集以及相互作用网络分析
Workflow
ProteomeXchange >> raw MS data(mzR) >> 查库(PD,Maxquant, rTANDEM, MSGFplus) >> identification data >> MSnID(过滤) >> 统计分析(MSstats<DDA, DIA>, msmsTests, isobar<iTRAQ>)
Databases
Uniprot:Swissprot、TrEMBL、PRI-PSD
PlantPReS: a database for plant proteome response to stress
MS-GF+: http://proteomics.ucsd.edu/software-tools/ms-gf/
NR:一个非冗余数据库
MTBLS: 代谢组学
其他:Pfam, COG, NRDB, GenPept, NCBInr, cptac,
Mass spectrometry data
一般来说,质谱部分与色谱部分可以分开来看;目标物质通过色谱仪进入质谱后在电离源被电离成气相离子,然后进入质量分析器。不同质荷比离子被依次分开到达电子倍增管产生电信号,从而得到目标物质的三维信息,通过检测离子质荷比的大小和丰度,利用离子碎片信息可以更准确地对物质进行定性,从而对化合物进行定性和定量分析,并获得非常有用的元素组成和结构信息。
Data type
TYPE | FORMAT | PACKAGE |
---|---|---|
raw | mzML, mzXML, netCDF, mzData |
mzR (read) |
identification | mzIdentML |
mzR (read) and mzID (read) |
quantitation | mzQuantML | |
peak lists | mgf |
MSnbase (read/write) |
other | mzTab |
MSnbase (read) |
Data accession
ProteomeXchange数据库基于质谱的蛋白质数据提交、存储和传播的中心点,可以协调包括 PRIDE数据库( EBI for MS/MS experiments), PASSEL 数据库(ISB for SRM data)和 MassIVE数据库的资源. 在R中一般可以利用已知的PX号通过 rpx包进行查询和下载。
质谱数据一般流程
-
样品上质谱,获得Raw data(质荷比+强度)
-
搜库,获得初始结果(丰度信息,ID信息)
-
质控
-
定性分析和定量分析
-
注释、挖掘、功能关联分析
蛋白质鉴定(搜库)
从质谱仪上拿到的数据是原始质谱数据,然后要将原始数据进行一个数据格式转换,数据转换后再进行搜库来鉴定蛋白质,这一步是要看找到了多少个蛋白质,随后对找到的蛋白进行蛋白定量。主要要素:
-
蛋白序列数据库:目的物种下载或转录组+基因组翻译
-
特异性酶解:指定使用的蛋白酶;否则,计算机会迭代所有可能,增加运算时间和错配率。
-
转录后修饰:一种叫固定修饰,即在某种氨基酸残基上一定出现的特定基团修饰,比如加入乙酰化试剂进行乙酰化修饰;另一种叫可变修饰(动态修饰),就是说某一种氨基酸残基可能会被某种基因修饰(被修饰的可能性比较大),例如甲硫氨酸的氧化等。
-
碎片类型:搜库软件通常会根据仪器类型来判断碎片离子的类型。如CID或HCD碎裂产生by离子;ETD碎裂则会产生cz离子;QTOF会产生ax离子。
-
已知污染物库: XXX.fasta(可以diy,然后合并fasta即可)
-
labels
搜库软件
-
Mascot
-
SEQUEST
-
Maxquant:免费不开源,配套下游分析Perseus
-
X!Tandem:rTANDEM(R包接口)
-
MSGF+:MSGFplus(R包接口)
-
Skyline:For the data from targeted proteomics experiments
-
ProSight Lite:For top-down MS data
Maxquant
目前认可度相对较高,可用于酶解肽段和碰撞诱导离解(CID)、高能碰撞离解(HCD)和电子转移离解(ETD)所产生的串联光谱,可以在window和linux上运行。
- UltraQuant is an open framework for running MaxQuant on Linux computer clusters written in the Snakemake workflow management system.
Parameters
作者推荐用windows版本软件设置好mqpar.Xml,然后转到linux里运行。如果对设置文档比较熟系或者已经有了模板,只需修改常见变化代码段即可。
-
<fastaFilePath>path_to.fasta</fastaFilePath>
-
<filePaths>:LS/MS.raw(多个file > 下游参数需要跟着修改直到</parameterGroups>结束)
-
<fixedCombinedFolder>:结果文件夹
-
<restrictProteinQuantification> 为fixed modification
-
<variableModifications>
-
<enzymes>
-
<labelMods>
# get mqpar.Xml from windows parameter setting
mono MaxQuant/bin/MaxQuantCmd.exe mqpar.Xml
# query the status
ls $MQ_combined_folder/combined/proc | grep started
# the running times
cat $MQ_combined_folder/combined/proc/#runningTimes.txt
Computing cluster
https://docs.csc.fi/support/tutorials/MaxQuant-tutorial/
Partial Processing
# the individual steps
mono MaxQuantCmd.exe mqpar.xml -n
# to run specific step
mono MaxQuant/bin/MaxQuantCmd.exe mqpar.xml --partial-processing=20
主要结果
主要结果就是一个类似表达矩阵的东西,感觉可以按照转录组下游分析去做,而且MaxQuant的作者们还贴心的写了个下游分析的软件—Perseus。
-
combined file >> proteinGroup.txt
-
peptides.txt >> 肽组学
Perseus
-
Preprocessing:去除污染蛋白(reverse database or contaminants) >> 接着做log2转化(optional) >> NA or blank(optional)
-
Filtering: 基于表达量过滤空值或目标阈值
-
Annotations
-
Functional Analysis
数据呈现:Exploratory Analysis, Normalization(Z-score), Expression Analysis, Clustering and Profile Plots
可视化策略:火山图,韦恩图,热图,相关性热图,PCA,富集气泡图,准确性评估图
蛋白质功能注释
It is recommended to use proteins found in the ‘Majority protein IDs’ column for subsequent functional or enrichment analysis, as they are protected against accidental hits to a protein group.
通过搜库对蛋白质进行鉴定后,接着就是对这些搜到的蛋白进行功能注释,这有助于了解蛋白的功能,从而解析样本相关表型,常用于功能注释的数据库有:GO、COG、KEGG、NR、Pfam、Swiss-Prot。
参考文献
\1. Mergner, J. et al. Proteomic and transcriptomic profiling of aerial organ development in Arabidopsis. Sci Data 7, 334, doi:10.1038/s41597-020-00678-w (2020).
\2. Zhang, Y., Fonslow, B. R., Shan, B., Baek, M. C. & Yates, J. R., 3rd. Protein analysis by shotgun/bottom-up proteomics. Chem Rev 113, 2343-2394, doi:10.1021/cr3003533 (2013).
\3. Identification of protein clusters predictive of tumor response in rectal cancer patients receiving neoadjuvant chemoradiotherapy.
\4. Tyanova, S. & Cox, J. Perseus: A Bioinformatics Platform for Integrative Analysis of Proteomics Data in Cancer Research. Methods Mol Biol 1711, 133-148, doi:10.1007/978-1-4939-7493-1_7 (2018).
\5. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. doi:10.1038/nbt.1511.
\6. Hennrich, M. L. et al. Cell-specific proteome analyses of human bone marrow reveal molecular features of age-dependent functional decline. Nat Commun 9, 4004, doi:10.1038/s41467-018-06353-4 (2018).
\7. Sinitcyn, P. et al. MaxQuant goes Linux. Nature Methods 15, 401-401, doi:10.1038/s41592-018-0018-y (2018).
\8. Tyanova, S., Temu, T. & Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nat Protoc 11, 2301-2319, doi:10.1038/nprot.2016.136 (2016).
\9. http://www.coxdocs.org/doku.php?id=maxquant:viewer:start
\10. Mass spectrometry and proteomics data analysis
\11. RforProteomics
\12. UltraQuant
\13. https://docs.csc.fi/support/tutorials/MaxQuant-tutorial/