线性相关
## 假设
### 假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。
### 假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。
## 线性回归
通过其他变量预测单独的属性值,假设不同维度的变量有一定的相关性(自变量和因变量)
应用:可以用于数据降噪或异常检测;
### 基于自变量与因变量的线性回归
#### 最小二乘法
标准差
#### 梯度下降
Loss function 损失函数:the error for single training example
cost function 代价函数:the average of the loss functions of the entire training set
线性回归的损失函数:均方误差
### 基于异常检测的线性回归
即以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面
## 主成分分析
用一些潜在变量代表整个数据
原理:
如果前 k的特征向量选定之后(根据最大的k个特征值),由这些特征向量定义的 k维超平面是在所有维度为 k的超平面中,所有数据点到它的均方距离尽可能小的平面。
如果将数据转换为与正交特征向量对应的轴系,则转换后的数据沿每个特征向量维的方差等于相应的特征值。在这种新表示中,转换后的数据的协方差为0。
由于沿特征值小的特征向量的转换数据的方差很低,因此沿这些方向的变换数据与平均值的显着偏差可能表示离群值。
值得注意的是,对异常得分的大部分贡献是由 λj
值较小的主成分的偏差提供的,这一点上文中有提及过。主成分分析比因变量回归能更稳定地处理少数异常值的存在。这是因为主成分分析是根据最优超平面来计算误差的,而不是一个特定的变量。当数据中加入更多的离群点时,最优超平面的变化通常不会大到影响离群点的选择。因此,这种方法更有可能选择正确的异常值,因为回归模型一开始就更准确。
### 归一化
主成分分析最好归一化,数据本身的度量方差或值域会导致主成分变量选择有偏。
# Anomaly Detection-A Tutorial
## definition
离群点值得是,与其他观测值偏离太多,使用另外一种机制产生的观测点
## 理论知识
### 统计方法
正态分布
均值-方差
Mahalanobis distance 马氏距离
异常点在分布的尾部
缺点:
1、数据不符合正态分布,而是一个非常复杂的分布
2、均值和方差都是d。不明白
3、均值和方法都极易受到异常点影响,如果我们使用这两者寻找异常点会导致错误的结果。
### 基于距离和密度方法
#### 基于距离(K近邻)
原理:异常点都距离它的邻居极远
优缺点:
1、不用假设分布
2、适用于大数据(需要大量数据)
3、只适用于全局异常点
4、Can lead to non-intuitive results in Top-k situations(不明白)
#### 基于密度(LOF)
优缺点:
1、可识别全局或局部异常点
2、不能剪枝,复杂度 N方
3、Require a method combining the strengths of distance and density based approaches? A distance based approach which can capture density?
CDOF 看不懂
距离法中的剪枝不适用于密度法
### addressing scalability
### 复杂数据中的异常情况
### 评估方法
## 应用
### 网络入侵侦查
### 反欺诈
目标:从交易数据中识别欺诈行为或人
数据:系统中不同人间的交易事物、个人信息、隐藏的图结构
挑战:追踪人物行为或建模、竞争对手创造的异常数据、数据高维
方法:
灵活的监控
根据历史数据构建用户画像
比较当前行为和历史行为画像
聚类:
对历史数据或客户聚类
识别小欺诈团体或找出异常客户
优点:
实时
解释性强
缺点:
需建立或者囊括大量用户画像
不动态
历史数据不一定可得
异常标签少
### Epidemiological 研究
### 天气数据分析
## 异常检测在数据挖掘中的四类
### 分类
### 聚类
### 模式挖掘
### 异常检测