代谢组学代谢组学代谢组学

muma-代谢组学单变量和多变量统计分析R包

2019-02-23  本文已影响46人  Dayueban

title: muma-代谢组学单变量和多变量统计分析R包
date: 2019-02-23 21:38:55
tags: [单变量, 多元统计, R包]
categories: 代谢组学


文章截图

导读

代谢组学和其它组学数据类似,也是多维的,所以分析起来不是那么清爽。这篇文章的作者开发了一个R软件包muma (metabolomics univariate and multivariate statistical analysis),简单实用且高效,并且对于R语言初学者来说偶比较容易上手。这个包的涉及代谢组学数据分析过程如是说:PCA分析和(O)PLS-DA,组间差异检验等常见的分析.

如何运行muma软件

我们先看下如下的流程图

muma软件流程图

文件准备

文件准备如下图所示

文件准备

流程解读

1 | 创建工作文件夹

library(muma) # 加载muma包
setwd("D:\\R\\R-exercise\\muma")
work.dir(dir.name="WorkDir") #创建名为WorkDir的文件夹用于存放后期分析的结果

2 | 开始分析

2.1 | muma分析的第一步从函数explore.data()开始,这个函数的主要功能就是数据的预处理(pre-processing)和数据探索。其基本用法如下:

> explore.data(file="YourFile.csv", scaling="ScalingType", scal=TRUE, normalize=TRUE, imputation=FALSE, imput="ImputType")

2.2 | 这个函数执行的结果是可以产生三个新的文件夹

2.3 | 实例运行

explore.data(file = "MetaBc.csv", scaling = "pareto", scal = TRUE, 
imputation = TRUE, imput = "mean")
常见的代谢组学数据预处理方法

5)最后一部分是该函数还进行了PCA分析。默认产生包含1个主成分的PCA图和scree图

PCA图 Screeplot

3 | 主成分分析

前面我们已经选择了数据的标准化方法,并且发现前面两个组成分就可以解释数据大部分的差异,因此选择前两个主成分作图

Plot.pca(pcx=1, pcy=2, scaling="pareto", test.outlier=TRUE)

注:由于个人认为这个软件做出的图并不美观,因此后续只展示数据分析代码及部分原理

4 | 单变量分析

muma包提供了几种单变量统计分析方法,如进行数据的正态性检验,组间两两比较的方法Welch's t TestWilcoxon Mann-Whitney test,并且会产生相应的文件夹。

univariate(file="MetaBc.csv", imputation=TRUE, imput="mean", 
normalize=TRUE, multi.test=TRUE, plot.volcano=TRUE)

4.1 | 除了组间两两比较的结果(会采用多重检验对P值进行校正),还提供了组间倍数和火山图的结果,以及箱线图的结果。

5 | 合并单变量和多元统计分析结果

这里通过函数Plot.pca.pvalues不仅可以将PCA的loading图展示,还可以突出显示至少在两组组间差异显著的变量。

Plot.pca.pvalues(pcx=1, pcy=2, scaling="pareto")
PCA图上显示组间差异显著的变量

6 | (正交)偏最小二乘判别分析((O)PLS-DA)

前面PCA分析是非监督多元统计分析,但是PCA的一个缺点就是当组间差异远大于组内差异的时候才会得到比较理想的结果,如果没有目标导向性的实验设计,那么可能影响的因素就会特别多,此时可以采用有监督多元统计分析模型PLS-DA和OPLS-DA方法。muma包也嵌入了这两种模型分析函数

6.1 | PLS-DA

plsda(scaling="pareto") # 这里不需要设定其它参数
Plot.plsda(pcx=1, pcy=2, scaling="pareto")

6.2 | OPLS-DA

oplsda(scaling="pareto") # 这里不需要设定其它参数
Plot.oplsda(pcx=1, pcy=2, scaling="pareto")

结语

现在关于代谢组学数据分析的软件(包括在线的和本地安装的,不同编程语言的)层出不穷,但是万变不离其宗。还是要根据自己的实验目的来选择最契合的统计方法。

参考

[1] muma, An R Package for Metabolomics Univariate and Multivariate
Statistical Analysis

上一篇下一篇

猜你喜欢

热点阅读