2019-01-08 异常检测方法(1)

2019-01-08 本文已影响0人且试新茶

SVDD

支持向量数据描述。

理论背景：

SVDD是一种统计学习方法，主要利用样本数据构建统计模型，并用该模型进行预测和分析。对于给定的样本X

样本X

，样本标签Y

样本标签Y

和决策函数f(X)，引入损失函数进行L(X,f(X))度量。常用的损失函数包括平方损失函数

平方损失函数

、0,1损失函数

0,1损失函数

，绝对损失函数

绝对损失函数

和指数损失函数

指数损失函数

。

模型在训练数据过程中产生的平均损失用 $R_{ER}$

经验风险

表示。平均损失通常被称为经验风险，在模型训练的过程中当然是要求风险越小越好，从而有结果求解公式：

最小化经验风险

通常，单纯求解上式会出现过拟合现象，这时候就要求和平均损失中加入正则项进行修正。正则项和损失项共同构成结构风险：

结构风险

结构风险也有其对应的最小化求解公式：

最小化结构风险

通过上述公式将统计问题转化为优化结构风险的问题。

核方法：

核方法的基本假设是：让低维线性不可分的样本到高维成为线性可分的样本。

核方法的假设问题是：当数据从低维到高维投影后，必须在高维进行计算，这就会产生“维度爆炸”的问题。还有一个就是需要将所有数据都进行投影，这就产生了大量计算量。

核方法的解决技巧是：使用一个核函数将高维空间需要进行内积计算的部分用核函数代替。常用的核函数有：

线性核函数

高斯核函数

多项式核函数

Sigmoid核函数

SVDD：

SVDD是一种单类分类方法，只对目标样本一项进行训练，训练样本的标签均为1。训练时在特征空间构造一个超球体，在进行检验时，在超球体内的是目标样本，在超球体外的是非目标样本，位于距离球心为半径距离的是支持向量。

SVDD模型

给定数据集合

给定特征集合

其中 $y_{i}$ 均等于1，每一个 $x_{i}$ 由对应的 $m_{i}$ 通过函数 $\phi$ 映射而来。

x与m的关系

SVDD分类转化为求解一个超球体，使得球体的半径最小，且所有样本均能位于球体内部。

结构化最小公式

其中 $a$ 为球心，R为超球体半径，对应的决策函数为：

决策函数

决策函数的作用在于表示训练样本是不是在超球体内部的目标样本，从而实现分类的目的。

在实际实验中，要把所有的训练数据全部包含在球体内，但是因为离群点的存在，会导致超球面的分类界面不能紧密地进行表达。所以引入松弛变量 $\xi$ 和惩罚系数 $C$ 对上述最小化公式进行修改。

改进最小化公式

惩罚系数用于描述对错误的容忍程度

上一篇下一篇

猜你喜欢

热点阅读