论文阅读“Dissimilarity Mixture Autoe

2021-08-02 本文已影响0人掉了西红柿皮_Kee

Lara J S, González F A. Dissimilarity Mixture Autoencoder for Deep Clustering[J]. arXiv preprint arXiv:2006.08177, 2020.

摘要翻译

差异混合自编码(DMAE)是一种基于特征聚类的神经网络模型，它融合了灵活的dissimilarity function，可以集成到任何一种深度学习体系结构中。它在内部表示了一个差异混合模型(DMM)，通过将概率重新解释为神经网络表示，将K-Means、GMM或Bregman聚类等经典方法扩展到任何凸和可微的dissimilarity function。DMAE可以与深度学习架构集成到端到端模型中，允许同时学习聚类分配和神经网络参数。通过对图像和文本聚类基准数据集进行实验，结果表明DMAE在无监督分类准确率和标准化互信息对比中具有较强的竞争力。

Intro介绍

Unsupervised learning (UL) aims to automatically extract meaningful patterns from unlabeled data, it covers different tasks like clustering, density estimation, dimensionality reduction, anomaly detection, data generation, among others.

Remarkable examples for UL:(1) autoencoders (AE); (2)generative models (GAN and VAE); (3) deep clustering methods (similarity-based or feature-based)
作者提出的DMAE，是一种 feature-based聚类的深度神经网络模型，同时它包含dissimilarity function，保留了similarity-based聚类的灵活性。DMAE在内部以编码器-解码器体系结构表示了指数分布的混合，允许使用基于梯度的优化进行参数估计。DMAE将经典的概率概念重新解释为神经网络组件，允许集成到深度学习架构中。主要贡献点：

DMAE：一种基于样本和混合成分之间的可微凸差异函数的深度聚类模型，可应用于深度嵌入空间。
该模型是一个使用概率神经网络表示的编码器-解码器网络，可以与其他深度学习组件一起使用。允许通过基于梯度的优化、在线学习和迁移学习等现代策略进行可扩展的参数估计。
由于DMAE的公式是基于差异的函数，所以它可以拟合来自不同概率分布的数据，如圆形、角形、概率空间等，同时保持参数的可解释性。同样地，如果问题需要更高的复杂性，所提出的模型可以用深度学习组件进行扩展，在可解释性和性能之间进行权衡。

模型浅析（Dissimilarity Mixture Autoencoder）

DMAE由三个主要成分组成。首先，�提出了一个差异混合模型(DMM)，将Bregman聚类等经典方法扩展到任何凸和可微的差异函数；其次，提出了一种期望最大化的自编码器作为DMM的学习过程；第三，利用无监督表示学习对模型进行了深度聚类扩展。

Dissimilarity Mixture Model

Mixture Model是一种聚类的概率方法，它允许通过一组 $K$ 个分布的组合来表示样本的密度。在本工作中，属于类簇 $k$ 的数据点 $x_i∈R^m$ 的似然 $P(x_i|z_{ik}=1)$ 被建模为如下的指数分布：

其中

z_{ik}

是一个binary类型的潜在变量，指示样本

x_i

是否属于类簇

k

；

b_k

是一个唯一确定的值，将概率标准化为一个有效的概率密度；

α

是一个控制可能性指数行为的常数；

d(·)

是一个差异度量函数，用于度量

x_i

和与当前类簇

k

Autoencoder for Expectation-Maximization

EM是一种迭代更新模型参数直到收敛的算法，它需要在任何 $t$ 次迭代中确定E步和M步的一般表达式。
E-step：计算q^(t)

对于具有离散的潜在变量数的模型，所求分布等于后验分布，即可以由公式(2)计算得到。其中

X∈R^{N×m}

是一个矩阵，其中每一行大小为

m

的特征向量

x_i

共计

N

个样本，

Z∈R^{N×K}

是一个矩阵，其中每一行代表一个样本

x_i

对应的潜在分量

z_i

。

M-step：通过最大化分布q^(t)下的完全对数似然值的期望值来更新参数

对于包含

N

个样本和

K

个分量的DMM，其完全似然

P(X, Z; Θ, Φ)

采用如下计算：

其完全对数似然（the complete log-likelihood）为：

考虑到

z_{ik}

分量是binary随机变量以及关于q(t)的定义(见公式(4))，条件期望

E_{q^{(t)}}[z_{ik}]

等于后验分布

P(z_{ik}=1|x_i)

。所以有：完全对数似然值的期望

L=E_{q^{(t)}}[log(P(X, Z; Θ,Φ))]

计算如下：

由于不相似函数

d

必须是凸的，利用琴森不等式：

琴生不等式（Jensen's inequality）以丹麦数学家约翰·琴生（Johan Jensen）命名。它给出积分的凸函数值和凸函数的积分值间的关系。琴生不等式有以下推论：过一个下凸函数上任意两点所作割线一定在这两点间的函数图象的上方，即：

Jensen's inequality 一般形式

我们可以得到如下的表达：

利用公式(9)和完全对数似然必须最大化的要求，可以确定出一个下界即：

其中，样本 $x_i$ 的参数 $\tildeθ_i$ 和 $\tildeϕ_i$ 是使用softmax输出作为权值的所有集群参数的凸组合。

损失函数基于完全对数似然值和软分配参数的下界，类似于其他聚类方法中通常使用的失真度量。表示如下：

由此，差异混合自编码器(DMAE)是将EM过程重新解释为一个具有对应于DMM参数的共享权重的编码器-解码器网络。在DMAE中，执行一个编码过程来计算 soft-assignments 或后验概率 $P(z_i|x_i)$ ，这等同于E步；同样，重构 $\tildeθ_i$ 和 $\tildeϕ_i$ 被计算为潜在表示的线性解码，并最小化重构误差或失真度量 $L$ (公式(12))来更新模型的参数，这相当于M步。
DMAE最重要的特性之一是，它由可微操作组成，因此可以通过基于梯度的优化将损失 $L$ 最小化。像批处理学习和在线学习等方法可以使用，因为DMM假设是样本间独立同分布(i.i.d)，允许其应用于具有控制内存消耗的大型数据集。此外，还可以利用无监督表示学习，通过利用反向传播和其他深度学习组件的外部梯度来增强DMAE。

Unsupervised Representation Learning

DMAE使用一个深度自编码器进行无监督表示学习，并将DMM合并到潜在空间中进行聚类。完整的架构可分为四个主要组件：deep encoder, dissimilarity mixture encoder, dissimilarity mixture decoder, and deep decoder.

Deep Encoder
该组件将输入数据转换为一个更简单的表示或潜在空间。它定义了一个从原始输入空间到维度为 $R$ 的空间 $\mathcal{H}$ 的映射 $\mathcal{X→H}$ 。这是通过在训练过程中学习的几个非线性变换来实现的。具体来说，它定义了一个函数 $f_1(·)$ ，该函数使用一组权值 $W_e$ 将输入样本 $x_i∈R^m$ 转换为潜在表示 $h_i∈R^R$ (R是潜在维度的大小)。

Dissimilarity Mixture Encoder (DM-Encoder)
该组件将潜在表示 $h_i$ ，软分配到 $K$ 个类簇中。它定义了从空间 $\mathcal{H}$ 到维度为 $K$ 的潜在空间 $\mathcal{S}$ 的映射 $\mathcal{H→S}$ 。该表示等价于公式(2)中所示的DMM的赋值 $P(z_{ik}=1|x_i)$ 和在均匀分布 $(α→0)$ 和稀疏空间 $(α→∞)$ 之间发生变化。它定义了聚类参数 $Θ$ 和 $Φ$ ，并需要一个成对差异函数 $d_p(·)$ 来计算差异向量 $d_i∈R^K$ ，这样 $d_i$ 中的每个值就表示 $h_i$ 和所有集群参数 $θ_k∈Θ$ 之间的差异性 $d(·)$ 。

因此，软分配 $s∈R^K$ 是通过softmax激活函数确定的，它使用软最大逆温度 $α$ 来控制稀疏性和偏差向量(重参数混合系数) $Φ∈R^K$ 。
Dissimilarity Mixture Decoder (DM-Decoder)
该组件用于计算类簇参数 $\tildeθ_i$ 和 $\tildeϕ_i$ ，定义了从稀疏空间 $\mathcal{S}$ 到重建参数的潜在空间 $\mathcal{\tildeΘ}$ 的映射 $\mathcal{S→\tilde Θ}$ 。这是由所有类簇的参数 $Θ$ 和 $Φ$ 的凸组合实现的，如公式(11)。如果该 $Θ$ 可以构建成一个矩阵 $Θ∈R^{K×m}$ ，重建就等价于如下的矩阵乘法：
Deep Decoder
正常的Decoder组件，意在学习从重建参数空间到重建输入空间的映射。它定义了一个函数 $f_2(·)$ ，该函数使用一组权值 $W_d$ 将输入样本 $\theta_i∈$ 转换为原始重建表示 $\tilde x_i$ 如下：

整体模型通过优化组合Loss函数进行学习。 Total loss