线性相关

2021-05-18  本文已影响0人  战忽局女程序猿

## 假设

### 假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

### 假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

## 线性回归

通过其他变量预测单独的属性值,假设不同维度的变量有一定的相关性(自变量和因变量)

应用:可以用于数据降噪或异常检测;

### 基于自变量与因变量的线性回归

#### 最小二乘法

标准差

#### 梯度下降

Loss function 损失函数:the error for single training example

cost function 代价函数:the average of the loss functions of the entire training set

线性回归的损失函数:均方误差

### 基于异常检测的线性回归

即以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面

## 主成分分析

用一些潜在变量代表整个数据

原理:

如果前 k的特征向量选定之后(根据最大的k个特征值),由这些特征向量定义的 k维超平面是在所有维度为 k的超平面中,所有数据点到它的均方距离尽可能小的平面。

如果将数据转换为与正交特征向量对应的轴系,则转换后的数据沿每个特征向量维的方差等于相应的特征值。在这种新表示中,转换后的数据的协方差为0。

由于沿特征值小的特征向量的转换数据的方差很低,因此沿这些方向的变换数据与平均值的显着偏差可能表示离群值。

值得注意的是,对异常得分的大部分贡献是由 λj

值较小的主成分的偏差提供的,这一点上文中有提及过。主成分分析比因变量回归能更稳定地处理少数异常值的存在。这是因为主成分分析是根据最优超平面来计算误差的,而不是一个特定的变量。当数据中加入更多的离群点时,最优超平面的变化通常不会大到影响离群点的选择。因此,这种方法更有可能选择正确的异常值,因为回归模型一开始就更准确。

### 归一化

主成分分析最好归一化,数据本身的度量方差或值域会导致主成分变量选择有偏。

# Anomaly Detection-A Tutorial

## definition

离群点值得是,与其他观测值偏离太多,使用另外一种机制产生的观测点

## 理论知识

### 统计方法

正态分布

均值-方差

Mahalanobis distance 马氏距离

异常点在分布的尾部

缺点:

1、数据不符合正态分布,而是一个非常复杂的分布

2、均值和方差都是d。不明白

3、均值和方法都极易受到异常点影响,如果我们使用这两者寻找异常点会导致错误的结果。

### 基于距离和密度方法

#### 基于距离(K近邻)

原理:异常点都距离它的邻居极远

优缺点:

1、不用假设分布

2、适用于大数据(需要大量数据)

3、只适用于全局异常点

4、Can lead to non-intuitive results in Top-k situations(不明白)

#### 基于密度(LOF)

优缺点:

1、可识别全局或局部异常点

2、不能剪枝,复杂度 N方

3、Require a method combining the strengths of distance and density based approaches? A distance based approach which can capture density?

CDOF 看不懂

距离法中的剪枝不适用于密度法

### addressing scalability

### 复杂数据中的异常情况

### 评估方法

## 应用

### 网络入侵侦查

### 反欺诈

目标:从交易数据中识别欺诈行为或人

数据:系统中不同人间的交易事物、个人信息、隐藏的图结构

挑战:追踪人物行为或建模、竞争对手创造的异常数据、数据高维

方法:

灵活的监控

    根据历史数据构建用户画像

    比较当前行为和历史行为画像

聚类:

    对历史数据或客户聚类

    识别小欺诈团体或找出异常客户

优点:

    实时

    解释性强

缺点:

    需建立或者囊括大量用户画像

    不动态

    历史数据不一定可得

    异常标签少

### Epidemiological 研究

### 天气数据分析

## 异常检测在数据挖掘中的四类

### 分类

### 聚类

### 模式挖掘

### 异常检测

上一篇下一篇

猜你喜欢

热点阅读