论文粗读“HCSC: Hierarchical Contrast

2022-05-11  本文已影响0人  掉了西红柿皮_Kee

Guo Y, Xu M, Li J, et al. HCSC: Hierarchical Contrastive Selective Coding[J]. arXiv preprint arXiv:2202.00455, 2022.

emmm...摆烂阅读

动机分析
图片数据中通常包含多种语义层级,如对于狗这个类别中,又可以根据细粒度的特征进行子类别的划分。由此,本文使用树形的层级原型来刻画包含在其中的层级语义结构,如下所示:

对于得到的树形结构而言,每一层则可以代表不同的层级语义空间。本文后续的工作,是利用这种层级语义信息对对比学习过程中负例的选择进行优化,从而得到更具有辨别性的特征表示。

问题形式化

目标:为给定的无标签数据X=\{x_1, x_2, \cdots, x_N\}学习一个低维的特征向量表示Z \in \mathbb{R}^{N \times \delta}
除了数据表示外,还需要维持一个层级原型的表示集合C=\{\{c_i^l\}_{i=1}^{M_l}\}_{l=1}^L。这个看似符号很多的集合,就是本文的关键。首先,L代表需要捕获的层级信息对应的层数,例如,上图中是一个包含三层的树形结构,即L=3;其次,M_l则代表中第l层中包含的类簇的数量,例如上图中,画出的第一层包含3个类别,即M_1=3。为了保证后续运算的便捷性,作者这里约束c_i^l \in C都是\delta-dim向量。通过层级的k-means算法,可以得到多层级的语义结构表示。具体算法如下:

其中,较为突出的操作是,建立当前原型节点和其对应的父节点之间的连接关系。针对不断更新的图像表示,这种针对多层级语义结构的更新机制,对所学到的语义表示进行了综合,并有效的捕获了各层级中的关键特征。

同时作者还设计了一个较为新颖的距离函数,传统的计算,仅考虑欧式距离或是余弦相似性。本文使用的距离函数融合了二者的特性(cluster-specific dot product):

其中,Z_c由分配给类簇c的样本的表示组成,\epsilon是一个平滑项,用于平衡不同类簇的\tau_c

后续的对比学习负例的选择,则是利用了层级语义信息,利用相似性信息构造了一个可被选择的概率。并引入伯努利采样(一个样本被选中为负样本,或者不被选中),对负例集合进行构造。之后就是对比损失的计算。这部分有大佬已经写过了,传送门,这里不再赘述。

笔者比较关注的点\delta的设置,很遗憾论文中只是说低维的,只能去代码中查看;另外关于LM_l的设置。作者也给出了相关实验:


多层级的k-means聚类感觉很新颖。
上一篇下一篇

猜你喜欢

热点阅读