2019-01-08 异常检测方法(1)

2019-01-08  本文已影响0人  且试新茶

SVDD

支持向量数据描述。

理论背景:

SVDD是一种统计学习方法,主要利用样本数据构建统计模型,并用该模型进行预测和分析。对于给定的样本X

样本X

,样本标签Y

样本标签Y

和决策函数f(X),引入损失函数进行L(X,f(X))度量。常用的损失函数包括平方损失函数

平方损失函数

、0,1损失函数

0,1损失函数

,绝对损失函数

绝对损失函数

和指数损失函数

指数损失函数

模型在训练数据过程中产生的平均损失R_{ER}

经验风险

表示。平均损失通常被称为经验风险,在模型训练的过程中当然是要求风险越小越好,从而有结果求解公式:

最小化经验风险

通常,单纯求解上式会出现过拟合现象,这时候就要求和平均损失中加入正则项进行修正。正则项和损失项共同构成结构风险:

结构风险

结构风险也有其对应的最小化求解公式:

最小化结构风险

通过上述公式将统计问题转化为优化结构风险的问题。

核方法:

核方法的基本假设是:让低维线性不可分的样本到高维成为线性可分的样本。

核方法的假设问题是:当数据从低维到高维投影后,必须在高维进行计算,这就会产生“维度爆炸”的问题。还有一个就是需要将所有数据都进行投影,这就产生了大量计算量。

核方法的解决技巧是:使用一个核函数将高维空间需要进行内积计算的部分用核函数代替。常用的核函数有:

线性核函数 高斯核函数 多项式核函数 Sigmoid核函数

SVDD:

SVDD是一种单类分类方法,只对目标样本一项进行训练,训练样本的标签均为1。训练时在特征空间构造一个超球体,在进行检验时,在超球体内的是目标样本,在超球体外的是非目标样本,位于距离球心为半径距离的是支持向量。

SVDD模型 给定数据集合 给定特征集合

其中y_{i} 均等于1,每一个x_{i} 由对应的m_{i} 通过函数\phi 映射而来。

x与m的关系

SVDD分类转化为求解一个超球体,使得球体的半径最小,且所有样本均能位于球体内部。

结构化最小公式

其中a为球心,R为超球体半径,对应的决策函数为:

决策函数

决策函数的作用在于表示训练样本是不是在超球体内部的目标样本,从而实现分类的目的。

在实际实验中,要把所有的训练数据全部包含在球体内,但是因为离群点的存在,会导致超球面的分类界面不能紧密地进行表达。所以引入松弛变量\xi 和惩罚系数C对上述最小化公式进行修改。

改进最小化公式

惩罚系数用于描述对错误的容忍程度

上一篇下一篇

猜你喜欢

热点阅读