论文阅读“BP Neural Network-Based Dee

2021-11-08 本文已影响0人掉了西红柿皮_Kee

Zeng Q, Chen W S, Pan B. BP Neural Network-Based Deep Non-negative Matrix Factorization for Image Clustering[C]//International Conference on Intelligent Computing. Springer, Cham, 2020: 378-387.

摘要翻译：

深度非负矩阵分解(DNMF)是一种很有发展的非负性多层特征提取方法。大多数DNMF算法都是重复运行单层NMF来构建层次结构。他们必须通过微调策略来消除累积的错误，但这比较耗时。为了解决现有DNMF算法的缺点，本文提出了一种新的利用反向传播神经网络(BPNN)的深度自动编码器。它可以自动生成一个深度非负矩阵分解，称为基于BPNN的DNMF(BP-DNMF)。实验结果表明，所提出的BP-DNMF算法具有收敛性。与一些最先进的DNMF算法相比，实验结果表明，该方法具有优越的聚类性能和较高的计算效率。

Intro：

非负矩阵分解(NMF)的目的是找到两个因子 $W$ 和 $H$ ，使 $X \approx WH$ ，其中 $X$ 是一个样本的数据矩阵， $W$ 和 $H$ 是非负的，分别称为基样本矩阵和特征矩阵。NMF可以学习基于部分的样本数据表示，并表现出其处理分类和聚类任务的能力。然而，NMF及其变体仅仅是单层分解方法，因此不能揭示数据的底层层次特征结构。而深度学习的实证结果表明，基于多层特征的方法优于基于浅层学习的方法。因此，一些研究者提出了基于单层NMF算法的深度NMF模型。有学者采用单层稀疏NMF生成迭代规则 $H_{i-1}=W_iH_i, i=1,...L$ ，其中 $H_0=X$ 。最终的分解结果为 $X=W_1W_2....W_LH_L$ 。但该DNMF算法在重建上有一个很大的误差其性能会受到负面影响。【A deep orthogonal non-negative matrix factorization method for learning attribute representations(2017)】将一个单层正交的NMF扩展到一个深度体系结构。他们的更新规则是 $W_{i-1}=W_iH_i, i=1,...L$ ；其中 $W_0=X$ 。最终的深度分解是 $X=W_1H_1H_2....H_L$ 。该正交DNMF采用了一个微调步骤来减少因子分解的总误差，并显示了其在人脸图像聚类中的有效性。为增加DNMF的扩展性，【A deep matrix factorization method for learning attribute representations(2017)】提出了一种具有 $X \approx W_1^{\pm}W_2^{\pm}...W_L^{\pm}H_L$ 深度分解形式的半DNMF模型，对于这样的模型是没有限制矩阵的符号的。半DNMF模型还通过预训练和微调两个阶段进行了求解，并可以学习对面部图像进行聚类和分类的隐藏表示。可以看出，大多数DNMF方法都需要使用微调策略来减少模型的整个重构误差。然而，这导致了很高的计算复杂度。此外，现有的DNMF算法都没有使用深度神经网络(DNN)获得层次特征结构，也无法利用DNN的优势进行聚类。
为了解决基于单层NMF的DNMF方法的问题，本文提出了一种新的基于BPNN的DNMF(BP-DNMF)方法。利用标记原始样本数据的RBF，得到作为BPNN输入的块对角相似矩阵。同时，将原始数据设置为网络的真实目标。该模型可以看作是一个深度自动编码器。特别是，自动编码器会自动生成一个具有深度层次结构的图像数据表示。所提出的BP-DNMF方法具有较高的计算效率，因为它直接避免了微调步骤。

DNMF

大多数DNMF算法通过递归地利用某些单层NMF生成层次特征结构，并得到以下深度分解：

这通常被称为预训练阶段，为了减少巨大的重建误差，该方法设立了以最小化重建损失为目标的损失函数：

BP-DNMF浅析

该部分介绍一种基于BP神经网络的自动编码器。该自动编码器能够在图像数据上自动创建深度非负矩阵分解，从而避免了微调阶段的高计算复杂度。最后将所提出的BP-DNMF应用于层次特征提取和图像聚类。

Auto-encoder

这里作者给出了一种新的数据定义的方式，整体的训练数据可以表示为：

其中，每个

X_i

是第

i

个类簇所包含的样本数据：

c

是所有的类簇的个数，总样本数为各类簇包含样本的总量：

作者提出的auto-encoder包含：数据到相似矩阵以及相似矩阵到数据两个部分。

Data $X$ to Similarity Matrix $H$ :
利用训练数据的径向基函数(RBF)，根据两个数据属于同一类，相似性较高，否则相似性较低，生成块对角相似性矩阵 $H$ 。（关于这一部分的构造可以后续进行思考，脱离对数据标签的依赖--如：编码+一致）详细的说，相似矩阵以及 $H_i=$ 该步骤相当于在每个类簇中都构造了一个由数据表示生成的相似矩阵，其中的相似度的值使用的是如上的 $k(x,y)$ 度量方式。可以看出，矩阵 $H$ 具有良好的数据 $X$ 聚类特征。
Similarity Matrix $H$ to data $X$
作者利用输入 $H$ 和目标 $X$ 建立和优化多层BP神经网络的结构。首先通过设置 $L$ 层数和每一层神经元数等来确定BPNN的结构。各权重矩阵 $W_i(i=1,...,L)$ 由标准正太分布进行初始化，激活函数和偏置分别设置为 $f(x)=p^{1/L} \cdot x, (p>0)$ 和 $0$ 。（注：一般情况下，为了更好的学习表示，偏置项不为 $0$ ，但是在矩阵分解中，都要表示为矩阵连乘的方式，因此要将该偏置项设置为 $0$ ）
网络的损失函数可以表示为：
在该网络中采用梯度下降法更新权重矩阵。优化过程如下：
前向

构建深度神经网络的结构，包括指定层 $L$ 和每层神经元数量；
分别设置网络的输入和输出目标 $\alpha_0=H_j$ 和 $X_j$ $(j=1,2,...,n)$ ，其中 $H_j$ 和 $X_j$ 分别是矩阵 $H$ 和 $X$ 中的第 $j$ 列。（注：对于这两个矩阵而言，列向量对应的是数据集中第 $j$ 条样本表示）
以标准正太分布 $N(0,1)$ 初始化 $L$ 个层的权重矩阵， $W_i(i=1,2,...,L)$ ，并将偏置项设置为 $0$ 。
对于第 $i$ 层，计算其输入 $z_i=W_i \cdot \alpha_{i-1}$ ，输出为 $\alpha_i=f(z_I)=p^{1/L} \cdot z_i, i=1,...,L$