Matrix capsules with EM routing

2020-12-20 本文已影响0人 zelda2333

论文：Matrix capsules with EM routing

没有太大的变动，主要还是一个新的路由算法，听说卷积胶囊就是由这篇文章来的。

路由算法的本质和第一篇Dynamic Routing Between Capsules是一样的，只不过把相应的位置换成了EM算法罢了，其中提到的高斯混合模型是EM算法1个经典应用。

我们直接使用李航《统计学习方法》里面的介绍粗略理解高斯混合模型

高斯混合模型

高斯混合模型定义

用EM算法求解高斯混合模型(GMM)参数

我们先使用最大似然估计来尝试求解GMM的参数。如下：

算法

输入：观测数据 $y_1,y_2,\dots,y_n$ ,高斯混合模型
输出：高斯混合模型参数
(1)取参数的初始值开始迭代；
(2)E步：依据当前的模型参数，计算分模型 $k$ 对观测数据 $y_j$ 的响应度，即计算每个数据 $j$ 来自子模型 $k$ 的可能性

(3) M步：计算新一轮迭代的模型参数

(4)重复计算E步和M步，直到收敛

胶囊分配

EM路由在运行时将胶囊分组形成一个更高级别的胶囊。它同时会计算分配概率 $r_{ij}$ 来量化胶囊及其父胶囊之间的运行时连接。例如，手胶囊不属于人脸胶囊，它们之间的分配概率为零。 $r_{ij}也被一个胶囊的激活程度所影响。如果图像中的嘴被阻塞，嘴胶囊将会有零激活值。计算出来的$ r_{ij}也将是零。

计算胶囊的激活值和姿态矩阵

胶囊输出的计算不同于深度网络的神经元。在EM聚类中，我们通过高斯分布来表示数据点。在EM路由中，我们仍用高斯模型对父胶囊的姿态矩阵进行建模。姿态矩阵是一个4×4矩阵，即16个元素。我们用具有16个μ和16个σ的高斯模型对姿态矩阵建模，每个μ表示姿态矩阵的一个元素。

令 $v_{ij}$ 为从胶囊 $i$ 到父胶囊 $j$ 的投票， $v_{ij}^h$ 为它的第 $h$ 个元素。我们应用高斯概率密度函数：

来计算 $v_{ij}^h$ 属于胶囊 $j$ 的高斯模型的概率：

取自然对数：

我们估算一下激活一个胶囊的成本。成本越低，胶囊就越有可能被激活。如果成本高，投票就不匹配父高斯分布，因此被激活的概率就越低。

令 $cost_{ij}$ 为由胶囊i激活父胶囊j的成本，它是对数似然取负：

由于低层的胶囊与胶囊 $j$ 有着不同的关联，我们根据运行时分配概率 $r_{ij}$ 按比例计算成本。所有下层胶囊的成本为：

我们用下面的公式来确定胶囊 $j$ 是否会被激活：

原文中，“ $−b_{ij}$ ”被解释为描述胶囊 j的均值和方差的成本。换句话说，如果父胶囊j表示数据点的收益 $b_j$ 高于投票差异造成的成本，我们激活输出胶囊。我们不通过分析来计算 $b_j$ 。相反，我们通过反向传播和成本函数来训练它。

$r_{ij}$ ， $μ$ ， $σ$ 和 $a_j$ 通过下一节讨论的EM路由迭代地计算。上述公式中的 $λ$ 是温度参数的倒数 $\frac{1}{temperature}$ 。当 $r_{ij}$ 越来越优，我们降低温度（ $λ$ 变大），它增加 $sigmoid(z)$ 的 $S$ 曲线的梯度。这有助于我们在这些区域内以更高的投票差异灵敏度更好地精调 $r_{ij}$ 。在我们的实现里，迭代开始时 $λ$ 首先被初始化为1，然后每次路由迭代后增加1。论文并没有说明细节，我们建议在实现中采用不同的方案进行试验。

EM路由

利用EM路由迭代计算出姿态矩阵和输出胶囊的激活值。EM法交替地调用步骤E和步骤M，将数据点拟合到混合高斯模型。步骤E确定父胶囊每个数据点分配的概率 $r_{ij}$ 。步骤M在 $r_{ij}$ 的基础上重新计算高斯模型的值。我们重复迭代3次。最终的 $a_j$ 就是父胶囊的输出。最终的高斯模型的16个 $μ$ 将构成父胶囊的 4×4 姿态矩阵。

上面的 $a$ 和 $V$ 分别是激活值和子胶囊的投票。我们用均匀分布初始化分配概率 $r_{ij}$ 。即开始时子胶囊与任意父胶囊有同样的关联。我们调用步骤M来计算更新的高斯模型 $(μ，σ)$ 和父激活 $a_j$ ，基于 $a$ ， $V$ 和当前的 $r_{ij}$ 。然后我们调用步骤E基于新的高斯模型和新的 $a_j$ 重新计算分配概率 $r_{ij}$ 。