PH525x series - Robust summaries

2019-11-21  本文已影响0人  3between7

鲁棒性(robust)

人们经常使用正态分布去分析生命科学领域的数据,然而,因为设备的复杂性,常常会由于一些未知的过程而误导人们的分析。比如说,PCR的偏好性问题。我们举例来说明这一问题:

set.seed(1)
x=c(rnorm(100,0,1)) ##real distribution
x[23] <- 100 ##mistake made in 23th measurement
boxplot(x)
robust.png

统计学上将类似最上方的那个点称为离群值,几个离群值就可以破坏整个分析,平均值与方差都会受到离群值的影响,而中位数对离群值却是拥有鲁棒性的(也就是不会因为离群值的存在而受太大的影响)。

绝对中位差(The median absolute deviation,MAD)

在统计学中,绝对中位数MAD是对单变量数值型数据的样本偏差的一种鲁棒性测量。它的定义如下:

1.4826 * median\{|X_i - median(X_i)|\}

其中,1.4826是转换系数,作用是将MAD转换为标准差的无偏估计量。

斯皮尔曼相关(Spearman correlation)

相关分析同样会受到离群值的影响,而spearman相关并不会,因为spearman相关分析会将数据转变为秩次,然后再计算相关性。现在举例说明:

set.seed(1)
x=c(rnorm(100,0,1)) ##real distribution
x[23] <- 100 ##mistake made in 23th measurement
y=c(rnorm(100,0,1)) ##real distribution
y[23] <- 84 ##similar mistake made in 23th measurement
library(rafalib)
mypar(1,2)
plot(x,y,main=paste0("correlation=",round(cor(x,y),3)),pch=21,bg=1,xlim=c(-3,100),ylim=c(-3,100))
abline(0,1)
plot(rank(x),rank(y),main=paste0("correlation=",round(cor(x,y,method="spearman"),3)),pch=21,bg=1,xlim=c(-3,100),ylim=c(-3,100))
abline(0,1)

spearman.png

从图中可以看出,经过秩次转变后做出的相关系数一下降到了0.066,结果并未受到离群值的影响。

log比值的对称性

比值是不对称的,但经过log转换的比值却是对称的,数学上的推导过程如下:

log(x/y) = log(x) - log(y) = -(log(y) - log(x)) =- log(y/x)

上一篇下一篇

猜你喜欢

热点阅读