论文阅读“Exploring Set Similarity fo

2022-11-15  本文已影响0人  掉了西红柿皮_Kee

Wang Z, Li Q, Zhang G, et al. Exploring set similarity for dense self-supervised representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16590-16599.

摘要导读

通过考虑空间对应关系( spatial correspondence),密集自监督表示学习在各种密集预测任务上取得了优异的性能。然而,由于许多类似的误导像素,例如背景,像素级的对应往往有噪声。为了解决这个问题,本文开始探索密集自监督表示学习的集合相似性(SetSim)。由于集合包含更多的语义和结构信息,本文将像素级的相似学习推广到集合的相似学习,以提高鲁棒性。具体来说,通过采取为各视图分配注意特征的方式,本文建立了相应的集合,从而过滤掉可能导致不正确对应的噪声背景。同时,这些注意特征可以保持同一图像在不同视图上的一致性,从而缓解语义上的不一致性。进一步还搜索了集合的跨视图最近邻,并利用结构化的邻域信息来增强其鲁棒性。实验表明提出的方法具有很好的性能。

模型浅析
  1. Constructing Corresponding Set
    首先,由于image-level对比损失的引入,使得上层的attention map可以反应出一些较为突出的特征,这对于减轻像素级的误导和语义的不一致性是有效的。
    对于同一输入样本I,使用f进行特征抽取,然后使用卷积映射g_{set}产生feature map: 其中z \in \mathbb{R}^{C \times HW}p \in \mathbb{R}^{C' \times HW}C,C'分别表示不同的通道尺寸。为了构造相应的集合,首先通过计算跨通道维度C'的特征映射z的统计量,得到空间注意映射A: ,并使用Min-Max正则对A进行缩放,并引入阈值\delta来选择不同的向量p_j 其中,j是特征映射p的空间索引,因此p_j \in \mathbb{R}^{C'}
    关于A'(j)的写法让笔者比较困惑,没有明白其对应的具体操作。这里只能是猜测,得到的A'分别与C'个feature vectors进行对应位置相乘,然后判断得到的vector是否大于\delta。如下所示,令C=5, C'=8, HW=169 当然这里还有待考证。
    对于query和view分别进行对应的操作,就可以得到两个视图对应的attentional vectors。
  2. Set2Set-NN Matching Strategy
    在这一部分,假设得到的query和key的attentional vectors数量分别为m和n。对于每个query向量p^q_i,首先与每个key向量p^k_i建立全连通对应s_i。形式如下: 由于阈值\delta的选择,一些有用的向量被从相应的集合中排除。因此,本文设计了新的策略,进一步从key视图中搜索p^q_i的最近邻像素。具体来说,对于p^q_i中的每个向量,通过对z^qz^k的相似性应用一个argmax运算,可以得到其相关的最近邻, 得到每个p^q_i的演化对应集合c_i,其公式为: 由此可知,c_i这里既包含p也包含z
  3. Similarity Learning Objectives
    给定注意查询向量p^q_i和相应的集合c_i,可以直接得到正例对,负例对k_−由关键视图中全局平均合并特征构成的queue提供。因此,set-level的对比损失如下: 由此,完整的损失函数可以表示为如下形式: \lambda为调节损失的超参数,实验中设置为0.5。

本文的创新点主要在于对应set的构建以及改进的set-level的对比损失。笔者对于A'(j)的计算比较困惑,希望各位指正。总得来说使用set-level的对比,避免了pixel-level的误导性和语义不一致性,立意还是较高的。

上一篇 下一篇

猜你喜欢

热点阅读