机器学习笔记7: 支持向量机(下)

2018-04-30 本文已影响22人 secondplayer

上一篇文章中我们已经根据拉格朗日对偶性推导出了SVM最优化公式。而在这一篇文章中，我们将会从SVM最优化公式中引出核函数(kernels)的概念，由此给出在高维空间下更高效应用SVM的算法，然后利用正则化解决线性不可分与异常点的问题，最后介绍用于高效实现SVM的序列最小优化(sequential minimal optimization)算法。

核函数

在线性回归的问题中，我们曾举过预测房价的例子，输入特征x是住房面积。假设我们为了提高预测准确性，希望用x²，x³作为特征来建模。为了区别这两类变量，我们把原始的输入变量称为属性(attribute)，对原始变量映射后的项叫做特征(feature)。定义φ为特征映射(feature mapping)函数，在这个例子中，我们有：

为了应用SVM算法，我们需要将算法中出现x的地方替换成φ(x)。由于算法可以被完全写成向量内积的形式<x, z>，这意味着我们可以将其替换为<φ(x), φ(z)>。给定一个特征映射函数，我们定义核函数(kernels)为：

因此，在算法中我们可以把<x, z>都替换成K(x, z)。给定φ，我们通过求φ(x)和φ(z)的内积来计算K(x, z)。有趣的是，即使φ(x)可能因为维度较高导致计算起来比较耗时，而计算K(x, z)并不是很耗时。在这种情况下，通过在算法中引入K(x, z)，可以使得SVM算法的计算量大大减少。

我们来举个例子看一下，假设

我们可以计算出：

对比K(x, z)的定义，可得到特征映射函数φ为(当n=3时)：

可见计算φ(x)的时间复杂度是O(n²)，而计算K(x, z)的时间复杂度是O(n)。

再考虑一个例子，假设

对比K(x, z)的定义，可得到特征映射函数φ为(当n=3时)：

推广到更一般的形式，假设K(x, z) = (x^Tz + c)^d，计算φ(x)的时间复杂度是O(n^d)，而计算K(x, z)的时间复杂度仍旧是O(n)。当维度较高时，核函数的优势更加明显。

另一个常用的核函数是高斯核(Gaussian kernel)，其特征映射函数φ可以映射到无限维。高斯核函数为：

我们接下来的一个问题就是给定一个函数K，它是否能成为一个合法的核函数，也就是说是否存在一个映射函数φ使得K(x, z) = <φ(x), φ(z)>?

假设K是一个合法的核函数，对于一个包含有限个点的集合{x⁽¹⁾, x⁽²⁾, ..., x^(m)}，定义核矩阵(Kernel matrix)K，矩阵的每个元素K_ij = K(x⁽ⁱ⁾, x^(j))。注意由于核函数和核矩阵的关系密切，我们使用了相同的符号K来表示它们。

当K是合法的核函数时，可证明K_ij = K_ji，因此K是对称矩阵。此外，定义φ_k(x)表示向量φ(x)的第k个元素，我们也能证明：

综上我们可得出结论，如果K是合法的核函数，那么对应的核矩阵K是对称半正定(symmetric positive semidefinite)矩阵。这个结论反过来也成立，即“K是合法的核函数”是“核矩阵K是对称半正定矩阵”的充分必要条件，这个结论被称为Mercer定理(Mercer Theorem)。

核函数在机器学习中有广泛的应用。比如在数字识别问题中，我们需要根据一张图片(16*16像素)识别出数字(0-9)。如果把每个像素作为特征值，那么会有256个特征值，使用核函数(K(x, z) = (x^Tz)^d或者高斯核)后可以使SVM的性能大大提升。

正则化与线性不可分的情况

到目前为止，我们在推导SVM过程中都是基于“数据是线性可分的”这个假设。尽管用函数φ将特征映射到高维可以增加数据线性可分的可能性，但这个假设不能保证总是成立。此外，还有一种情况是如果数据里有异常点(outlier)，那么得到的超平面可能并不是我们想要的结果。比如左下图显示了一个最优超平面，右下图里增加了一个异常点使得最优超平面的间隔变小了，影响了分类器的性能。