无监督学习-线性方法|深度学习（李宏毅）（十七）

2021-01-20 本文已影响0人酷酷的群

一、概述

无监督学习可以认为主要包括两种，一种是化繁为简（比如聚类和降维）和无中生有（比如生成）。化繁为简这种方式只有模型的输入，而无中生有这种方式只有模型的输出：

无监督学习

在本文中主要介绍一些聚类和降维的方法。

二、聚类

K-means

K-means是一种无监督的聚类方法，通常我们有一些数据，需要分成多个类。这里有一个问题就是事先需要确定要聚成多少个类，类的个数不能太多也不能太少，极端地将数据聚成样本个数个类或者一个类都相当于没有进行聚类：

Clustering

假如我们有 $N$ 个样本 $X=\left \{x^{1},\cdots ,x^{n},\cdots ,x^{N}\right \}$ ，需要聚成 $K$ 个类，具体的算法如下：

①初始化聚类中心 $c^i,i=1,2,\cdots ,K$ （也就是从 $x^n$ 中随机抽取 $K$ 个样本）。
②重复如下步骤：
for all $x^n$ in $X$ : $b_{i}^{n}=\left\{\begin{matrix} 1,\; \; x^{n}\; is\; most\; close\; to\; c^{i}\\ 0,\; \; otherwise \end{matrix}\right.$
updating all $c^{i}$ : $c^{i}=\sum _{x^{n}}b_{i}^{n}x^{n}/\sum _{x^{n}}b_{i}^{n}$

这里之所以使用从 $X$ 抽取的 $K$ 个样本来初始化聚类中心 $c^i,$ 而不是随机初始化，是因为这样可以避免没有样本距离某聚类中心最近而导致更新 $c^i$ 时分母为 $0$ 。

Hierarchical Agglomerative Clustering（HAC）

HAC这种聚类方法首先根据样本相似度构建一棵二叉树，然后选择一个阈值来进行聚类。

如下图，首先在计算所有的样本pair的相似度，然后将相似度最高的两个样本合并起来（合并的方法可以是计算平均值），然后重复上述过程直至最终构建出整棵二叉树：

建树

构建出二叉树以后选择一个阈值，类似于在树上切一刀，下图展示了不同的阈值所对应的聚类结果：

聚类

三、降维

概述

在聚类的方法中每个样本必须被划分为一个类，而有时一个样本既可以属于这一类，也可能属于另一类，这种情况下我们需要样本的一个分布的表示，使用降维的方法可以做到这一点。

我们可以从另一个角度来考虑降维这种方法可能是有用的。如下图左边的3维的数据实际上可以使用2维的数据来表示（将左图螺旋状数据展平）：

example

举另外一个例子，在MNIST数据集中每个数字用 $28\times 28$ 的矩阵来表示，但是大多数 $28\times 28$ 的图片都不是数字，也就是说使用 $28\times 28$ 的矩阵是冗余的，随机初始化一张图片很难生成一个数字：

MNIST

在下图中的不同的3，事实上不需要使用 $28\times 28$ 的矩阵的来表示，只需要记录其旋转的角度即可：

不同的3

上述例子说明将高维的样本降维到低维空间是有实际意义的。

如下图，降维的主要流程也就是找一个function来讲高维样本 $x$ 降维到低维样本 $z$ ：

降维

Feature Selection

降维的最简单的方法是Feature Selection。这种方法就是简单地删除某些维度，比如下图中可以把 $x_1$ 这个维度拿掉：

Feature Selection

有时数据的任何一维都很重要，这时候Feature Selection的方法就不能用了，比如下面这种情况：

Feature Selection

Principal Component Analysis

介绍

主成分分析（Principal Component Analysis，PCA）是一种降维的方法。PCA使用的降维function就是一个线性变换 $z=Wx$ 。对于 $z$ 的第一维 $z_{1}=w^{1}\cdot x$ （ $w^{1}$ 是矩阵 $W$ 的第一行），可以认为 $z_{1}$ 是 $x$ 在 $w^{1}$ 方向上的投影。这里要限制 $||w^{1}||_2=1$ ，当 $w^{1}$ 模为 $1$ 时 $w^{1}\cdot x$ 就是投影的大小：

投影

以下图为例，如果要选择一个方向进行投影，我们需要选择投影后方差最大的方向（红色箭头的方向）进行投影，这样可以保留更多的数据的特征，也就是说我们希望 $z_{1}$ 的方差越大越好：

数据

如果想要降维到二维，那么第二个维度 $z_{2}=w^{2}\cdot x$ ，这里的 $w^{2}$ 除了要限制 $||w^{2}||_2=1$ 以外，还要使得 $w^{1}\cdot w^{2}=0$ 。对 $x$ 进行线性变换的过程其实也就是对坐标轴进行旋转的过程， $w^{1}$ 或 $w^{2}$ 的方向也就是旋转后的坐标轴的方向，坐标轴之间是正交的。最终得到的 $W=\begin{bmatrix} (w^{1})^{T}\\ (w^{2})^{T}\\ \vdots \end{bmatrix}$ 是正交矩阵。

求解 $w^{1}$

下面对 $w^{1}$ 进行求解：

$z_{1}=w^{1}\cdot x\\ \bar{z}_{1}=\frac{1}{N}\sum z_{1}=\frac{1}{N}\sum w^{1}\cdot x=w^{1}\cdot \frac{1}{N}\sum x=w^{1}\cdot \bar{x}\\ Var(z_{1})=\frac{1}{N}\sum _{z_{1}}(z_{1}-\bar{z}_{1})^{2}\\ =\frac{1}{N}\sum _{x}(w^{1}\cdot x-w^{1}\cdot \bar{x})^{2}\\ =\frac{1}{N}\sum _{x}(\underset{标量}{\underbrace{w^{1}\cdot (x-\bar{x})}})^{2}\\ =\frac{1}{N}\sum _{x}(w^{1})^{T}(x-\bar{x})(x-\bar{x})^{T}w^{1}\\ =(w^{1})^{T}[\frac{1}{N}\sum _{x}(x-\bar{x})(x-\bar{x})^{T}]w^{1}\\ =(w^{1})^{T}\underset{记作S}{\underbrace{Cov(x)}}w^{1}$

也就是说求解 $w^{1}$ 需要极大化 $(w^{1})^{T}Sw^{1}$ ，同时需要满足约束 $||w^{1}||_{2}=(w^{1})^{T}w^{1}=1$ ，否则无解。协方差矩阵 $S$ 是实对称矩阵，因此其是半正定的，特征值非负。

使用拉格朗日乘子法来求解上述约束优化问题，定义拉格朗日函数：

$g(w^{1})=(w^{1})^{T}Sw^{1}-\alpha ((w^{1})^{T}w^{1}-1)$

对 $w^{1}$ 求导并且令导数等于 $0$ 可得：

$Sw^{1}-\alpha w^{1}=0\\ \Rightarrow Sw^{1}=\alpha w^{1}\\ (因此\alpha 是特征值，w^{1}是特征向量)\\ \Rightarrow (w^{1})^{T}Sw^{1}=\alpha (w^{1})^{T}w^{1}=\alpha \\ (等式两边同时乘以(w^{1})^{T})$

因此 $(w^{1})^{T}Sw^{1}$ 的极大值就是 $S$ 的特征值 $\alpha$ ，选择 $S$ 的最大的特征值（这个特征值记作 $\lambda _{1}$ ）对应的特征向量就得到 $w^{1}$ 的解。

求解 $w^{2}$

接下来求解 $w^{2}$ ，需要极大化 $(w^{2})^{T}Sw^{2}$ ，除了需要限制 $(w^{2})^{T}w^{2}=1$ 以外，还需要满足 $(w^{2})^{T}w^{1}=0$ 。因此构建拉格朗日函数如下：

$g(w^{2})=(w^{2})^{T}Sw^{2}-\alpha ((w^{2})^{T}w^{2}-1)-\beta (2(w^{2})^{T}w^{1}-0)$

对 $w^{2}$ 求导并且令导数等于 $0$ 可得：

$Sw^{2}-\alpha w^{2}-\beta w^{1}=0\\ (w^{1})^{T}Sw^{2}-\alpha \underset{=0}{\underbrace{(w^{1})^{T}w^{2}}}-\beta \underset{=1}{\underbrace{(w^{1})^{T}w^{1}}}=0$

对于 $(w^{1})^{T}Sw^{2}$ ，可以做以下变换：

$(w^{1})^{T}Sw^{2}=((w^{1})^{T}Sw^{2})^{T}\\ =(w^{2})^{T}S^{T}w^{1}\\ =(w^{2})^{T}Sw^{1}\\ =\lambda _{1}(w^{2})^{T}w^{1}\\ =0$

代入结果可得 $\beta =0$ ，因此 $w^{2}$ 同样满足 $Sw^{2}=\alpha w^{2}$ ，所以 $w^{2}$ 也是 $S$ 的特征向量，但是 $w^{2}$ 不能取最大特征值对应的特征向量，因为这样 $w^{2}$ 就成了 $w^{1}$ ，不满足 $(w^{2})^{T}w^{1}=0$ ，所以 $w^{2}$ 只能取第二大特征值（记作 $\lambda _{2}$ ）对应的特征向量。

去相关性

经过PCA处理后的数据 $z$ 是去相关性的，也就是其不同的维度之间没有相关性，这可以体现在方差矩阵 $Cov(z)=D$ 是对角矩阵上：

$Cov(z)=\frac{1}{N}\sum (z-\bar{z})(z-\bar{z})^{T}\\ =WSW^{T}\\ =WS\begin{bmatrix} w^{1} & \cdots & w^{K} \end{bmatrix}\\ =W\begin{bmatrix} Sw^{1} & \cdots & Sw^{K} \end{bmatrix}\\ =W\begin{bmatrix} \lambda _{1}w^{1} & \cdots & \lambda _{K}w^{K} \end{bmatrix}\\ =\begin{bmatrix} \lambda _{1}Ww^{1} & \cdots & \lambda _{K}Ww^{K} \end{bmatrix}\\ =\begin{bmatrix} \lambda _{1}e_{1} & \cdots & \lambda _{K}e_{K} \end{bmatrix}\\ =D$

从最小重构代价和SVD角度看PCA

一组数据中的每个样本可以看做由多个basic component $u^{1},u^{2},u^{3},u^{4},u^{5},\cdots$ 组成，这里我们假设总共有 $K$ 个basic component ，也就是说要降维到 $K$ 维。类似的就像一张数字图片可以由多种笔画组合而成：

数字的构成

这种想法用公式来表达就是 $x-\bar{x}\approx c_{1}u^{1}+c_{2}u^{2}+\cdots +c_{K}u^{K}=\hat{x}$ ，则 $\begin{bmatrix} c_{1}\\ c_{2}\\ \vdots \\ c_{K} \end{bmatrix}$ 就可以来表示 $x$ ，也就是 $x$ 降维后的数据。

在求解时我们希望 $x-\bar{x}$ 和 $\hat{x}$ 越接近越好，也就是要最小化重构代价 $||(x-\bar{x})-\hat{x}||_{2}$ ，具体的：

$L=\underset{u^{1},\cdots ,u^{K}}{min}\sum \begin{Vmatrix} (x-\bar{x})-(\sum _{k=1}^{K}c_{k}u^{k}) \end{Vmatrix}_{2}$

在PCA中有 $z=Wx$ ，具体的：

$\begin{bmatrix} z_{1}\\ z_{2}\\ \vdots \\ z_{K} \end{bmatrix}=\begin{bmatrix} (w^{1})^{T}\\ (w^{2})^{T}\\ \vdots \\ (w^{K})^{T} \end{bmatrix}x$

最小化重构代价 $L$ 得到的 $u^{1},u^{2},\cdots ,u^{K}$ 就是这里的 $w^{1},w^{2},\cdots ,w^{K}$ 。

每一个样本都可以写成用 $u^{1},u^{2},\cdots ,u^{K}$ 来表示的形式：

$x^{1}-\bar{x}\approx c_{1}^{1}u^{1}+c_{2}^{1}u^{2}+\cdots +c_{K}^{1}u^{K}\\ x^{2}-\bar{x}\approx c_{1}^{2}u^{1}+c_{2}^{2}u^{2}+\cdots +c_{K}^{2}u^{K}\\ x^{3}-\bar{x}\approx c_{1}^{3}u^{1}+c_{2}^{3}u^{2}+\cdots +c_{K}^{3}u^{K}\\ \vdots$

将所有的样本集合起来就可以写成矩阵相乘的形式：

矩阵形式

将上图中右边的两个矩阵改写成类似奇异值分解的形式，下图中 $U$ 对应上图中等式右边第一个矩阵， $\Sigma \times V$ 对应上图中等式右边第二个矩阵：

奇异值分解的形式

然后进行极小化重构代价求解就可以解得 $u^{1},u^{2},\cdots ,u^{K}$ 就是对 $XX^T$ 进行特征值分解的前 $K$ 个特征值对应的特征向量。也就是说对 $X$ 进行奇异值分解，其左奇异向量就是我们要找的主成分。

另一篇有关PCA推导的文章：主成分分析|机器学习推导系列（五）。

PCA与AutoEncoder

PCA求解的方式可以是最小化 $\hat{x}=\sum_{i=1}^{K}c_{k}w^{k}$ 与 $x- \bar{x}$ 之间的重构代价，这里的 $c_{k}$ 也就是 $x- \bar{x}$ 与 $w^{k}$ 之间的内积，即 $c_{k}=(x- \bar{x})\cdot w^{k}$ 。这个过程可以描述为以下神经网络（假设 $K=2$ ）：

AutoEncoder

这个神经网络训练的方式就是使得网络的输入 $x- \bar{x}$ 与 $\hat{x}$ 越接近越好，使用梯度下降来求解。需要注意的是，PCA的方法是可以通过奇异值分解或者拉格朗日乘子法求得解析解的，所得解是一些彼此正交的向量，而神经网络使用梯度下降的方法求得的解一般不会正好是解析解，因此重构损失一般会比解析解对应的重构损失大一些。

PCA的局限性

首先PCA是无监督的，举例来说在下图中对数据进行PCA降维的话将会把数据投影到箭头所指的方向上：

PCA

而加入这些数据是两个类别，那么两个类别的数据就会混合到一起。对于多类别的数据，可以使用另一种降维方法，叫做线性判别分析（Linear Discriminant Analysis，LDA），参考链接：线性分类|机器学习推导系列（四）。这种方法会按照下图箭头方向进行投影：

LDA

另外一点是PCA是线性的，并非任何数据分布都能使用线性方法来处理，比如下图数据：

数据

这种类型的数据最好能够将其展开，如果使用PCA则会得到以下结果：

PCA

四、应用

使用PCA分析宝可梦数据

假设一只宝可梦的数据样本包含六个维度，现在要将所有的数据进行PCA的降维，降到多少个维度可以通过比较数据的方差矩阵的特征值来得到，首先计算每个特征值的占比：

$\frac{\lambda _{i}}{\lambda _{1}+\lambda _{2}+\lambda _{3}+\lambda _{4}+\lambda _{5}+\lambda _{6}}$

得到结果如下表：

占比

选择占比较大的前几个即可。降维后得到的主成分如下图：

主成分

对图片进行PCA

下面展示了分别对数字和人脸图片进行PCA的结果，都是提取了30个主成分：

数字

人脸

这里的数字的主成分看起来不像是笔画，人脸的主成分看起来也是完整的人脸，这是因为将这些主成分进行线性组合时的权重可能是正的也可能是负的。如果想让得到的主成分是笔画或者五官这样的图片，可以使用非负矩阵分解（Non-negative Matrix Factorization，NMF）这种方法，这种方法会限制权重和主成分都是非负的，最终得到的效果如下：

数字

人脸

矩阵分解

下图展示了A、B、C、D、E五个阿宅购买公仔的情况：

数据

下面使用矩阵分解（Matrix Factorization）来解释上面的数据。假设每个阿宅有一个隐向量来表示他对某种属性公仔的喜好（用 $r^{A},r^{B},r^{C},r^{D},r^{E}$ 来表示），每个公仔也有一个隐向量来表示该公仔的属性（用 $r^{1},r^{2},r^{3},r^{4}$ 来表示），这里假设这些隐向量维度是2，喜好隐向量与属性隐向量的点积代表了这个阿宅会购买这个公仔的数量：