SVM(2)
点到直线距离
这里我们来看一看点到直线的距离,点到直线距离公式是不是初中的知识点已经不记得了。
对公式进行化简,
其实点到直线方程就可以写出这个样子
利用我们在前面学到直线表达式,就会得到
也就是 ,不也就是一条直线那么,也就是将点到直线的距离直线,扩展到 n 维,w 为直线法线的方向然后我们对
向量的模如下
表示直线,假设已知 w 和 b 那么我们就得到一条直线
- 对于正例样本,对于所有正例样本其标签为 为 1,所以整数距离乘以 1 为整数
- 对于负例样本,对于所有正例样本其标签为 为 -1,所以负整数距离乘以 -1 为正整数。
这是所有样本到分割平面距离,我们接下来就要找距离分割平面最近点
这是表示所有样本点到某一条直线的最近点,
到样本最近距离取最大,这就是 SVM 的任务。我们现在用数学公式表达了 SVM 的任务,就是找到距离分割平面点的间隔最大值。
那么我们现在将问题扩展到 n 维特征空间, 这里 W 和 X 是 n 维,
这里解释一下 主要是样本的特征一种映射,将样本 的 三维特征映射到下面多维特征向量
将原始特征通过就变成了更多的特征,对数据的特征进行可能特征映射。做一阶 就是特征向量本身。
求解分割平面问题其实就是凸二次规划问题
推导目标函数
其中y(x) 表示第i样本估计值,我们知道位于分割面法线方法为y(x)为正那么其真实值为1 ,f(x) 和 y 相乘为正,反之亦然。
下面是点到直线距离公式
下面公式 arg 表示对于 这样距离对所有点求最近在求最远。
我们需要求 w 和 b 来满足上面目标函数,怎么优化是比较麻烦,
化简目标函数
其实我们这些支持向量点到分割平面一定是一个参数假设是 C 那么他们距离表示是将这些支持向量点带入上面点到直线方程,因为可以对直线做线性变换除以一个常量 C
w 向量乘上常数 C 后方程是没有变化的。等比例缩放 w 总是可以办到。就可以将距离直线距离取 1。
总可以通过等比缩放w方法,使得函数值满足
如果满足上面条件那么最小值就是 1 将 1 带入上面方程
就等价于