数据挖掘大数据,机器学习,人工智能机器学习与数据挖掘

超平面

2020-08-10  本文已影响0人  _LEON_

在看《统计学习方法》时,对超平面有些地方不理解,这篇文章就记录一下疑问和答案。

疑问

定义

超平面将n维空间分为两部分的线性子空间,它的维度会比空间维度少1,以盘古开天辟地为例,混沌是个3维空间,斧子的运动轨迹就是超平面,它是二维的,平的,并且将混沌分成天和地两个部分。超平面的公式是

w^Tx+b=0

点乘

w^Tx 是两个向量的点乘,计算公式是 \|w\|\dot\|x\|cos\theta ,可以看出结果是一个标量,也就是一个数字,其中 \|\| 表示向量的模,即向量的长度。

image.png

(图1来自: 此处

以二维空间为例,令 \overrightarrow{a}=(x_1, y_1), \overrightarrow{b}=(x_2, y_2)

ab 点乘的计算公式有两个

它们计算结果相等证明如下:

\overrightarrow{c}=\overrightarrow{a} - \overrightarrow{b} = (x_1 - x_2, y_1 - y_2)

按照勾股定理计算 c的模

\begin{aligned}\|c\|^2 &= (x_1 - x_2)^2 + (y_1 - y_2)^2\\ &= x_1^2 + x_2^2 + y_1^2 + y_2^2 - 2x_1x_2 - 2y_1y_2\\ &= \|a\|^2 + \|b\|^2 - 2(x_1x_2+y_1y_2)\end{aligned}

同时根据余弦定理计算

\|c\|^2 = \|a\|^2 + \|b\|^2 - 2\|a\|\|b\|cos\theta

上面两式去除重复项,即可得到 \|a\|\|b\|cos\theta = x_1x_2 + y_1y_2

扩展到n维空间上面这个等式依然成立,向量是对有向线段的描述,在二维空间需要两个值描述,在n维空间需要n个值描述,凭直觉就可以知道向量的运算是独立与空间的,如果这种运算在二维空间成立,那么在n维空间也应该成立。就像某个温度的摄氏计数和华氏计数不一样,但它们是一样热的。

余弦定理

这里再证明一下余弦定理

image.png

(图2来自https://blog.csdn.net/devout_/article/details/90924660

三角形有三个角A、B、C和三条边a,b,c

计算AD的长度

  1. 使用直角三角形ABD计算

    \|AD\|^2=c^2-(ccosB)^2

  2. 使用直角三角形ACD计算

\begin{aligned} \|AD\|^2 &= b^2 - (a-ccosB)^2\\ &=b^2-a^2-cos^2B+2accosB \end{aligned}

上面两个算式移项整理一下得 b^2 = a^2 + c^2 - 2accosB

几何意义

以二维空间为例,其超平面是一条直线。

image.png

(图3 来自《统计学习方法第二版》)

设该线为x^{(1)} + x^{(2)} - 1 = 0,注意这里看起有2个未知数,但是当其中一个未知数固定以后,另一个未知数是确定的,其实是个一元函数,维度比空间的维度数少1。

其中 w = \begin{bmatrix} 1 & 1 \end{bmatrix}^T,以向量方式表示为

\begin{bmatrix} 1 & 1 \end{bmatrix} \times \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} - 1 = 0

这个超平面可以有多个函数表示,比如 2x^{(1)} + 2x^{(2)} - 2 = 0。只要wb同比例放大,就表示同一个超平面,因此有时会要求w是单位向量,这样超平面的函数表达式就会唯一的确定下来。此时候向量点乘的几何意义就更加明确—就是xw上投影的长度。

w表示这条线的法向量,根据点乘的公式 w^Tx=\|w\|\|x\|cos\theta,就是xw上的投影长度(\|x\|cos\theta)与w长度(\|w\|)的积,由

w^Tx + b =\|w\|\|x\|cos\theta + b = 0

得到

\|x\|cos\theta = - \frac {b}{\|w\|}

虽然超平面可以有多种函数表达式,但是 - \frac {b}{\|w\|} 始终是固定不变的,可以发现这条线是由所有在w上投影长度为- \frac {b}{\|w\|}的向量的终点构成,而这条线到原点的距离就是- \frac {b}{\|w\|}

观察坐标系右上角的 \circ,他们在w上的投影长度都超过 - \frac {b}{\|w\|} ,因此它们都满足 w^Tx+b>0 ,同理左下角的 x 都满足 w^Tx+b<0

任意一点P(到超平面的距离相当于\overrightarrow{OP}O为原点)向量在w上投影的长度减去超平面到原点的距离,令向量为x,距离公式

\begin{aligned} l &= \|x\|cos\theta - (-\frac{b}{\|w\|}) \\ &= \frac{w^Tx}{\|w\|} + \frac{b}{\|w\|} \\ &=\frac{w^Tx+b}{\|w\|} \end{aligned}

尽管距离是非负数,我们这里不取绝对值的话就会发现点到超平面的距离与点的位置之间的关系:

\begin{cases} 右半空间 & l > 0 \\ 超平面 & l = 0 \\ 左半空间 & l < 0 \end{cases}

总结

w^Tx+b=0

\|w\|\|x\|cos\theta

- \frac {b}{\|w\|}

\frac{w^Tx+b}{\|w\|}

上一篇下一篇

猜你喜欢

热点阅读