SVM

2018-08-22 本文已影响0人水之心

有 $\mathcal{X} = \{x_1,x_2,\cdots,x_m: x_i \in ℝ^n\}$ , $\mathcal{Y} = \{y_1,y_2,\cdots,y_m\}$ , 数据空间 $V = \mathcal{X \times Y}$ . 以下 $i \in \{1, 2, \cdots, m \}$ , 分离超平面为 $w^T x + b = 0$

SVM 的目的是最大化间隔 (margin), 对于线性可分的数据集, 模型假设为
$\begin{cases} \displaystyle\min_{w} & ||w||^2/2 \\ \operatorname{s.t.} & {y_i(w^T x_i+b)} \geq 1 \end{cases}$

考虑到存在线性不可分的数据集, 引入了变量 $\xi_i \geq 0$ , 且 $\frac{\xi_i}{||w||}$ 表示点 $x_i$ 到离它最近的边界的距离, 模型便改写为
$\begin{cases} \displaystyle{\min_{w,C}} & ||w||^2/2 + C \sum_i \xi_i \\ \operatorname{s.t.} & {y_i(w^T x_i + b)} \geq 1 - \xi_i \end{cases} ⇔ \displaystyle{\min_{w, C}} \; ||w||^2/2 + C \sum_i \max(0, 1 - y_i(w^T x_i + b))$

在学术上预测损失 $LL = \sum_i \max(0, 1 - y_i(w^T x_i + b))$ , 被称为 hinge loss, $f(x) = \max(x,0)$ 被称为线性整流函数 (ReLU).

下图, 红线代表 soft margin, 绿线代表 hard margin.

SVM

如图可知：随着参数 C 的增大，margin width (两条虚线间的距离) 会变小。

当 C 比较小时是 soft margin 模型，它更加注重的是靠近类别中心的数据点；
当 C 比较大时是hard margin 模型，它更加注重靠近分离超平面的 “异常点”。

SVM

猜你喜欢

热点阅读