论文阅读“Dissimilarity Mixture Autoe

2021-08-02  本文已影响0人  掉了西红柿皮_Kee

Lara J S, González F A. Dissimilarity Mixture Autoencoder for Deep Clustering[J]. arXiv preprint arXiv:2006.08177, 2020.

摘要翻译

差异混合自编码(DMAE)是一种基于特征聚类的神经网络模型,它融合了灵活的dissimilarity function,可以集成到任何一种深度学习体系结构中。它在内部表示了一个差异混合模型(DMM),通过将概率重新解释为神经网络表示,将K-Means、GMM或Bregman聚类等经典方法扩展到任何凸和可微的dissimilarity function。DMAE可以与深度学习架构集成到端到端模型中,允许同时学习聚类分配和神经网络参数。通过对图像和文本聚类基准数据集进行实验,结果表明DMAE在无监督分类准确率和标准化互信息对比中具有较强的竞争力。

Intro介绍

Unsupervised learning (UL) aims to automatically extract meaningful patterns from unlabeled data, it covers different tasks like clustering, density estimation, dimensionality reduction, anomaly detection, data generation, among others.

Remarkable examples for UL:(1) autoencoders (AE); (2)generative models (GAN and VAE); (3) deep clustering methods (similarity-based or feature-based)
作者提出的DMAE,是一种 feature-based聚类的深度神经网络模型,同时它包含dissimilarity function,保留了similarity-based聚类的灵活性。DMAE在内部以编码器-解码器体系结构表示了指数分布的混合,允许使用基于梯度的优化进行参数估计。DMAE将经典的概率概念重新解释为神经网络组件,允许集成到深度学习架构中。主要贡献点:

相关工作

聚类模型的性能高度依赖于输入数据的拓扑结构和属性,例如,聚类可能形成不同的几何形状(如圆形、椭圆形、角状等),也可能由不同类型的变量(如连续的、离散的等)组成。不同的集群策略更适合于不同的问题。
作者在Intro中也提到了similarity-based and feature-based两类聚类方法,因此在这一部分进行详述。

模型浅析(Dissimilarity Mixture Autoencoder)

DMAE由三个主要成分组成。首先,�提出了一个差异混合模型(DMM),将Bregman聚类等经典方法扩展到任何凸和可微的差异函数; 其次,提出了一种期望最大化的自编码器作为DMM的学习过程;第三,利用无监督表示学习对模型进行了深度聚类扩展。

Dissimilarity Mixture Model

Mixture Model是一种聚类的概率方法,它允许通过一组K个分布的组合来表示样本的密度。在本工作中,属于类簇k的数据点x_i∈R^m的似然P(x_i|z_{ik}=1)被建模为如下的指数分布:


其中z_{ik}是一个binary类型的潜在变量,指示样本x_i是否属于类簇kb_k是一个唯一确定的值,将概率标准化为一个有效的概率密度;α是一个控制可能性指数行为的常数;d(·)是一个差异度量函数,用于度量x_i和与当前类簇k相关的参数θ_k之间的亲和力。当d(·)是Bregman divergence(出自论文Clustering with bregman divergences)时,指数族与所提出的似然值之间存在直接联系。然而,所提出的似然分布考虑了一个更一般的可微差异函数,该函数必须是θ_k的凸函数。给出一些可参考的差异函数: 根据典型的混合模型(MM)公式,需要确定一个后验类簇分配分布P(z_{ik}=1|x_i)的表达式,为此,我们引入了一个边缘先验分布P(z_{ik}=1)=π_k,并且有π_k ∈ [0, 1]\sum_{i=1}^K\pi_k=1。这个边缘分布代表了z_{ik}的离散性质,并引入了额外的模型参数--混合系数π_k。后验分布可以通过贝叶斯规则来确定:
for b_k,我们提出重新参数化的ϕ_k=log(π_kb_k),将该因子作为模型的参数,允许对非归一化概率分布进行优化。由此转化为:

其中, σ(·)为神经网络中常用的softmax,α值可以重新解释为softmax的逆温度,这是一个超参数,用于控制softmax函数的稀疏性,较高的α值近似于one-hot的softmax输出。同样(值得注意的是),当差异函数是负点积d(x_i, θ_k)=x_i·θ_kα=1时,该表达式与前馈神经网络之间存在直接的联系,即关于所有组件z_i=[z_{i1}, z_{i2}, …, z_{iK}]P(z_i|x_i)将相当于一个由softmax激活的单层网络σ(W·x_i+b),其中W∈R^{K×m}是一个包含聚类参数θ_k的矩阵,b∈R^K是一个具有重新参数化混合系数ϕ_k的向量。
在参数Θ =\left\{θ_1, θ_2, . . . , θ_K\right\}Φ = \left\{ϕ_1, ϕ_2, . . . , ϕ_K\right\}的学习中,DMAE的学习过程定义为E步的重新解释,M步定义为自动编码器的编码、解码和优化阶段。
Autoencoder for Expectation-Maximization

EM是一种迭代更新模型参数直到收敛的算法,它需要在任何t次迭代中确定E步和M步的一般表达式。
E-step:计算q^(t)


对于具有离散的潜在变量数的模型,所求分布等于后验分布,即可以由公式(2)计算得到。其中X∈R^{N×m}是一个矩阵,其中每一行大小为m的特征向量x_i共计N个样本,Z∈R^{N×K}是一个矩阵,其中每一行代表一个样本x_i对应的潜在分量z_i

M-step:通过最大化分布q^(t)下的完全对数似然值的期望值来更新参数

对于包含N个样本和K个分量的DMM,其完全似然P(X, Z; Θ, Φ)采用如下计算:
其完全对数似然(the complete log-likelihood)为:

考虑到z_{ik}分量是binary随机变量以及关于q(t)的定义(见公式(4)),条件期望E_{q^{(t)}}[z_{ik}]等于后验分布P(z_{ik}=1|x_i)。所以有:完全对数似然值的期望 L=E_{q^{(t)}}[log(P(X, Z; Θ,Φ))]计算如下:

由于不相似函数d必须是凸的,利用琴森不等式:

琴生不等式(Jensen's inequality)丹麦数学家约翰·琴生(Johan Jensen)命名。它给出积分凸函数值和凸函数的积分值间的关系。琴生不等式有以下推论:过一个下凸函数上任意两点所作割线一定在这两点间的函数图象的上方,即:

Jensen's inequality 一般形式
我们可以得到如下的表达: 利用公式(9)和完全对数似然必须最大化的要求,可以确定出一个下界即:

其中,样本x_i的参数\tildeθ_i\tildeϕ_i是使用softmax输出作为权值的所有集群参数的凸组合。

损失函数基于完全对数似然值和软分配参数的下界,类似于其他聚类方法中通常使用的失真度量。表示如下:

由此,差异混合自编码器(DMAE)是将EM过程重新解释为一个具有对应于DMM参数的共享权重的编码器-解码器网络。在DMAE中,执行一个编码过程来计算 soft-assignments 或后验概率P(z_i|x_i),这等同于E步;同样,重构\tildeθ_i\tildeϕ_i被计算为潜在表示的线性解码,并最小化重构误差或失真度量L(公式(12))来更新模型的参数, 这相当于M步。
DMAE最重要的特性之一是,它由可微操作组成,因此可以通过基于梯度的优化将损失L最小化。像批处理学习和在线学习等方法可以使用,因为DMM假设是样本间独立同分布(i.i.d),允许其应用于具有控制内存消耗的大型数据集。此外,还可以利用无监督表示学习,通过利用反向传播和其他深度学习组件的外部梯度来增强DMAE。

Unsupervised Representation Learning

DMAE使用一个深度自编码器进行无监督表示学习,并将DMM合并到潜在空间中进行聚类。完整的架构可分为四个主要组件:deep encoder, dissimilarity mixture encoder, dissimilarity mixture decoder, and deep decoder.


论文用了很巧妙的转化思想,将差异融合模型DMM融入到神经网络的学习中;利用将EM算法构建为编码和解码架构,使得概率顺理成章的成为了神经网络的表示。值得学习!

上一篇 下一篇

猜你喜欢

热点阅读