KL divergence

2021-10-19  本文已影响0人  白桃气泡水super

https://export.arxiv.org/pdf/1511.06335

初始条件:

 初始的聚类中心

 初始的非线性深度匹配f(其实就是前面的神经网络如ae,f的目的是得到embedding z)

步骤:

使用编码过的表示z 和聚类中心\mu 计算一个软分布 Q

 通过学习辅助目标函数 P 的高置信度表示,来更新非线性匹配f ,重置聚类中心

 重复上述过程,直到达到收敛条件

1.   软分布计算:

用t分布来度量编码过的Z和初始聚类中心之间的相似度,得到的Q可以理解成第i个数据属于第j簇的概率。

分子:第i条数据的embedding到第j个聚类中心的距离   分母:所有数据的embedding到第j个聚类中心的距离之和Qij: Q可以近似理解为第i条数据到第j个聚类中心的概率

2.   最小化KL散度(KL divergence minimization)

使用辅助的目标分布P更新Q,通过学习P的高置信度表现来迭代的更新聚类结果。

具体的,是将软分布Q匹配到目标分布P中去。

由于Q是软分布,自然而然地将P也设为软分布。

P的选取需要考虑以下几点:

    1.   加强预测结果

    2.   更多地强调具有高可信度的数据点 put more emphasis on data points assigned with high confidence.

    3.   正常化损失函数,防止大集群扭曲聚类中心的情况。

因此将p设置成以下形式:

P分布

通过让高置信度的p来更新q。

3.损失函数:更新了embedding z 和聚类中心

上一篇下一篇

猜你喜欢

热点阅读