【2018-10-07】离群点检测

2018-10-08  本文已影响0人  BigBigFlower

异常检测

全局离群点(显著的偏离数据集中的其余对象)

情境离群点(在特定情境,显著的偏离数据集中的其余对象)

 -----------情境属性

-----------行为属性

-----------局部离群点

集体离群点(数据对象的一个子集形成集体离群点)

(1)统计学方法

        学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为离群点。

(2)基于近邻性的方法

--------------基于距离的离群点检测和嵌套循环方法

令r为距离阈值,π(π∈(0,1])为分数阈值,o是一个DB(r,π)离群点,若:

dist(·,·)距离度量

计算DB(r,π)离群点===循环嵌套

输入:对象集D={o1,o2,o3,...,on},阈值r(r>0),π(π∈(0,1])

输出:D 中的DB(r,π)离群点。

--------------基于网格的方法

cell(数据空间被划分成多维网格)

-------------基于密度的离群点检测

(3)基于聚类的方法

假定正常的数据对象属于大的、稠密的簇、而离群点属于小的或稀疏的簇,或不属于任何簇。

(4)基于分类的方法

构建一个仅描述正常类的分类器,不属于正常类的任何样本都被视为离群点。

(5)挖掘情境离群点和集体离群点

在情境离群点检测中,结构是使用情境属性定义的情境。在集体离群点检测,结构是蕴含的。

(6)高维数据中的离群点检测

主要有三种方法:传统的离群点检测、找出子空间的离群点和对高维离群点建模。

上一篇 下一篇

猜你喜欢

热点阅读