2019-01-08 异常检测方法(1)
SVDD
支持向量数据描述。
理论背景:
SVDD是一种统计学习方法,主要利用样本数据构建统计模型,并用该模型进行预测和分析。对于给定的样本X
样本X,样本标签Y
样本标签Y和决策函数f(X),引入损失函数进行L(X,f(X))度量。常用的损失函数包括平方损失函数
平方损失函数、0,1损失函数
0,1损失函数,绝对损失函数
绝对损失函数和指数损失函数
指数损失函数。
模型在训练数据过程中产生的平均损失用
经验风险表示。平均损失通常被称为经验风险,在模型训练的过程中当然是要求风险越小越好,从而有结果求解公式:
最小化经验风险通常,单纯求解上式会出现过拟合现象,这时候就要求和平均损失中加入正则项进行修正。正则项和损失项共同构成结构风险:
结构风险结构风险也有其对应的最小化求解公式:
最小化结构风险通过上述公式将统计问题转化为优化结构风险的问题。
核方法:
核方法的基本假设是:让低维线性不可分的样本到高维成为线性可分的样本。
核方法的假设问题是:当数据从低维到高维投影后,必须在高维进行计算,这就会产生“维度爆炸”的问题。还有一个就是需要将所有数据都进行投影,这就产生了大量计算量。
核方法的解决技巧是:使用一个核函数将高维空间需要进行内积计算的部分用核函数代替。常用的核函数有:
线性核函数 高斯核函数 多项式核函数 Sigmoid核函数SVDD:
SVDD是一种单类分类方法,只对目标样本一项进行训练,训练样本的标签均为1。训练时在特征空间构造一个超球体,在进行检验时,在超球体内的是目标样本,在超球体外的是非目标样本,位于距离球心为半径距离的是支持向量。
SVDD模型 给定数据集合 给定特征集合其中均等于1,每一个由对应的通过函数映射而来。
x与m的关系SVDD分类转化为求解一个超球体,使得球体的半径最小,且所有样本均能位于球体内部。
结构化最小公式其中为球心,R为超球体半径,对应的决策函数为:
决策函数决策函数的作用在于表示训练样本是不是在超球体内部的目标样本,从而实现分类的目的。
在实际实验中,要把所有的训练数据全部包含在球体内,但是因为离群点的存在,会导致超球面的分类界面不能紧密地进行表达。所以引入松弛变量和惩罚系数对上述最小化公式进行修改。
改进最小化公式惩罚系数用于描述对错误的容忍程度