异常值算法分析(适用场景)

2019-07-23  本文已影响0人  李俊佚

异常值算法分析(适用场景)

正态分布掺杂数据时,3σ和箱型图基本一致的几种数据情况

均值 方差 数量 掺杂数量 异常区间 正态数据和 异常数据和
2836 3 10w 1024 10w~50w 2.8ww 3ww
213 19 10w 1024 10w~50w 2000w 3ww
104 9 10w 1024 10w~50w 1000w 3ww
1975 2 10w 512 10w~50w 2ww 1.5ww
1798 11 10w 512 10w~50w 1.8ww 1.5ww
1346 16 10w 512 10w~50w 1.3ww 1.5ww
2636 19 10w 512 10w~50w 2.6ww 1.5ww
106 12 10w 512 10w~50w 1000w 1.5ww
1944 15 10w 512 10w~50w 2ww 1.5ww
  1. 正常数据和尾数据 数据量对比为 8 / 2, 正常数据取值为[n , 2n), 尾重数据取值[4n, 6n) n = 2 ^ 28
  1. 正常数据和尾数据 数据量对比为 8 / 2, 正常数据取值为[n , n²), 尾重数据取值[2n², 3n²) n=2^10
  1. 正常数据和尾数据 数据量对比为 9 / 1, 正常数据取值为[n , n²), 尾重数据取值[2n², 3n²) n=2^10
  1. 正常数据和尾数据 数据量对比为 9 / 1, 正常数据取值为[n , 10n), 尾重数据取值[20n, 30n) n=2^10
尾重数据, 数据量 8 / 2
 8[left, right), 2[right, 3*right)

 箱型图
 数据量 9 / 1, 异常数据区间 [2Right, 3Right)      √
 数据量 8 / 2, 异常数据区间 [2Right, 3Right)      √
 数据量 7 / 3, 异常数据区间 [2Right, 3Right]      ×
在[尾重数据最小值 绝对大于 正常数据最大值的2倍] 且占比超过 1 / 4  箱型图统计异常
在[尾重数据最小值 绝对大于 正常数据最大值的1.5倍] 且占比超过 1 / 4  箱型图统计异常



当尾重数据占比 >= 3/10时箱型图统计出现问题

补KMeans (认为 距离 中心点的距离大于 距离中心点最远距离的 2 / 3即为异常数据 )

上一篇下一篇

猜你喜欢

热点阅读