数据分析、矩阵运算

生统笔记3-常用的离群之检测方法及R语言代码实现

2022-06-23  本文已影响0人  江湾青年

定量方法

Kurtosis measure(峰度)

峰度的计算公式
kurtosis <- function(x){
  scale_x <- scale(x)
  sum(scale_x**4)/length(scale_x)
}

统计检验

Grubbs' Test

library(outliers)
grubbs.test(x, type = 10, opposite = FALSE, two.sided = FALSE)

基于近邻度的模型

Local Outlier Factor (LOF, 局部离群因子)

wget http://www2.uaem.mx/r-mirror/src/contrib/DMwR_0.3.1.tar.gz
devtools::install_local('./software/DMwR_0.3.1.tar.gz')
DMwR::lofactor(data, k)      # k为根据几个最近邻居计算

定性方法

3 sigma原则

如果任何数据点超过标准偏差的3倍,那么这些点很可能是异常值。

3 sigma原则

四分位间距(IQR)

四分位间距(IQR)是我们常画的boxplot中用于定义异常值,低于(Q1 - 1.5 * IQR)或高于(Q3+1.5 * IQR)的观测值定义为异常值。


IQR

参考

https://blog.csdn.net/weixin_36274103/article/details/112717897
https://zhuanlan.zhihu.com/p/385238291
https://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm

上一篇下一篇

猜你喜欢

热点阅读