机器学习中的数学

最小二乘法的应用

2018-08-01  本文已影响15人  水之心

最小二乘法:
W = L(\alpha_1, \cdots, \alpha_s)\mathbb R 上的欧式空间 V 的子空间,\lambda \in W,则对于任意的 \beta \in V,有:
\forall \, \delta \in W,\; ||\beta - \lambda|| \leq ||\beta - \delta|| \Longleftrightarrow \beta \, \bot \, W
即向量到子空间各向量间的距离以垂线为最短。

下面的 Q 表示待求解的问题,A 代表求解方法:

求解线性方程组

几个关键定义

定义1:V 是数域 P 上的一个线性空间,泛函 f: V \times V \rightarrow {\mathbb R},满足:

  1. f(\alpha,\, k_1 \beta_1 + k_2 \beta_2) = k_1 f(\alpha, \,\beta_1) + k_2 f(\alpha,\,\beta_2)
  2. f(k_1 \alpha_1 + k_2 \alpha_2,\, \beta) = k_1 f(\alpha_1, \,\beta) + k_2 f(\alpha_2,\,\beta)
    其中 \alpha,\; \alpha_1,\; \alpha_2,\; \beta,\; \beta_1,\; \beta_2 \in V 中任意的向量,k_1,\; k_2 \in P,则称 f(\alpha, \beta)V 上的一个双线性函数.

定义2:设 f(\alpha, \beta) 是数域 Pn 维线性空间 V 上的一个双线性函数. \varepsilon_1,\, \cdots, \, \varepsilon_nV 的一组基,则矩阵
A = \begin{bmatrix} f(\varepsilon_1,\, \varepsilon_1) & \cdots & f(\varepsilon_1,\, \varepsilon_n)\\ &&&\\ \vdots & \ddots & \vdots \\ &&&\\ f(\varepsilon_n,\, \varepsilon_1) & \cdots & f(\varepsilon_n,\, \varepsilon_n) \end{bmatrix}
叫做 f(\alpha, \beta)\varepsilon_1,\, \cdots, \, \varepsilon_n 下的度量矩阵。 当 \alpha = \beta 时,V 上的函数 f(\alpha, \alpha) 称为与 f(\alpha, \beta) 对应的二次齐次函数。

易推知:同一个双线性函数在不同的基下的度量矩阵是合同的。

\varepsilon_1,\, \cdots, \, \varepsilon_n\eta_1,\,\cdots,\,\eta_n 是线性空间 V 的两组基底,且 ( \eta_1,\,\cdots,\,\eta_n) = (\varepsilon_1,\, \cdots, \, \varepsilon_n)C,则有
\alpha = (\varepsilon_1,\, \cdots, \, \varepsilon_n)X = ( \eta_1,\,\cdots,\,\eta_n)X_1
\beta = (\varepsilon_1,\, \cdots, \, \varepsilon_n)Y = ( \eta_1,\,\cdots,\,\eta_n)Y_1
即:
X = CX_1,\;Y = CY_1

若双线性函数 f(\alpha, \beta)\varepsilon_1,\, \cdots, \, \varepsilon_n\eta_1,\,\cdots,\,\eta_n 下的度量矩阵分别为 AB. 则有
f(\alpha, \beta) = X^TAY = (CX_1)^TA(CY_1) = X_1^TC^TACY_1 = X_1^TBY_1
因此
B = C^TAC

定义3:设 D = (V, E) 是一个标定的无环有向图,其中设 V = \{v_1,v_2,\cdots,v_n\},\;E = \{e_1,e_2,\cdots,e_m\},则称 M(D) = (m_{ij})_{n \times m}D关联矩阵,其中
m_{ij} = \begin{cases} 1 &\text{$v_i$ 是边 $e_j$ 的始点} \\ -1 &\text{$v_i$ 是边 $e_j$ 的终点} \\ 0 &\text{其他} \end{cases}

基于图的半监督学习

给定 D_l = \{(x_1,y_1), \,(x_2,y_2),\,\cdots,\,(x_l,y_l)\}D_u = \{(x_{l+1},y_{l+1}), \,(x_{l+2},y_{l+2}),\,\cdots,\,(x_{l+u},y_{l+u})\}l \ll ul+u=m.我们先基于 D = D_l \bigcup D_u 构建一个图 G = (V, E),其中节点集 V = \{(x_1,y_1), (x_2,y_2),\cdots,(x_{l+u},y_{l+u})\},边集的亲和矩阵(affinity matrix,或称为相似度矩阵),常基于高斯函数定义为
(W)_{ij} = \begin{cases} exp(\frac{-||x_i - x_j||_2^2}{2\sigma^2}) &\text{if $i \neq j$} \\ 0 &\text{其他} \end{cases}
其中 i,\,j \in \{1, \,2, \,\cdots, \,m\}; \sigma > 0 是用户指定的高斯带宽参数。

子空间 V = L(x_1, \,x_2,\,\cdots,\,x_m)) 上定义一个映射 f
\begin{aligned} f: V \rightarrow {\mathbb R^C}, && \text{$C$ 是类别个数} \end{aligned}
则可以定义 f 的能量函数为
\begin{aligned} E(f) &= \frac{1}{2} {\displaystyle\sum_{i=1}^{m}\sum_{j=1}^m (W)_{ij} ||f(x_i) - f(x_j)||^2}\\ &= \frac{1}{2}{\displaystyle\sum_{i=1}^{m}\sum_{j=1}^m (W)_{ij}( ||f(x_i)||^2 - 2 f(x_i)^Tf(x_j) + ||f(x_j)||^2)}\\ &= {\displaystyle\sum_{i=1}^{m}\sum_{j=1}^m}(W)_{ij}||f(x_i)||^2 - {\displaystyle\sum_{i=1}^{m}\sum_{j=1}^m}f(x_i)^Tf(x_j)(W)_{ij} & \text{$i$, $j$ 的对称性} \end{aligned}


\begin{aligned} &W = (w_1, \, \cdots, w_m)\\ &F = (f(x_1), \cdots, f(x_m)) = (f_1, \cdots, f_m) \end{aligned}
则有
\begin{aligned} FWF^T &= (\sum_{i=1}^m f_i(W)_{1,i},\cdots, \sum_{i=1}^m f_j(W)_{m,i})F^T \\ &= (Fw_1, \cdots, Fw_m)F^T \\ &= \sum_{i=1}^m Fw_if_i^T \\ &= \sum_{i,j=1}^m (W)_{i,j}f_i f_j^T \end{aligned}
故而
\begin{aligned} Tr(FWF^T) &= \sum_{i,j=1}^m Tr(f_i f_j^T)(W)_{i,j} \\ &= {\displaystyle\sum_{i=1}^{m}\sum_{j=1}^m}f(x_i)^Tf(x_j)(W)_{ij} \end{aligned}

d_j = {\displaystyle \sum_{j=1}^m (W)_{ij} = ||w_j||_1},则记
D = diag(d_1, \cdots, d_m),故而
{\displaystyle\sum_{i=1}^{m}\sum_{j=1}^m}(W)_{ij}||f(x_i)||^2 = Tr(FDF^T)

因而
E(f) = Tr(F(D-W)F^T)


\Delta = D - W (被称为拉普拉斯矩阵)则有
\begin{aligned} \min_f E(f) = \min_f Tr(F \Delta F^T) \Longleftrightarrow F \Delta = 0 & & \text{最小二乘问题} \end{aligned}

上一篇 下一篇

猜你喜欢

热点阅读