Circle Loss: A Unified Perspecti

2020-04-08  本文已影响0人  默写年华Antifragile

Circle Loss: A Unified Perspective of Pair Similarity Optimization

本文从一个统一的角度来看待 成对的 相似度 优化问题 (Pair Similarity Optimization),这个问题的目的是让不同类别之间的相似度 S_n 尽可能小,让同一类别的相似度 S_p 尽可能大;

统一两类损失函数

1. 粗分类代表:Softmax 交叉熵损失函数

\operatorname{softmax}\left(\mathrm{y}_{i}\right)=\mathrm{y}_{i}^{\prime}=\frac{e^{\mathrm{y}_{i}}}{\sum_{j=1}^{n} e^{\mathrm{y}_{i}}}
--------------------------------------------------------------------------------
H(p, q)=-\sum_{x} p(x) \log q(x)
---------------------------------------------------------------------------------

L_{ce}= -\sum_{i} \mathrm{y_i} \log \frac{e^{\mathrm{y}_{i}}}{\sum_{j=1}^{n} e^{\mathrm{y}_{i}}}
---------------------------------------------------------------------------------

softmax 交叉熵损失的特点:


2. 细分类代表:Triplet Loss

2.1 triple loss流程:

image.png
image.png
image.png
image.png

3.两类损失的统一

粗分类和细分类的损失是可以统一起来的,其统一的损失公式如下

\begin{aligned} \mathcal{L}_{u n i} &=\log \left[1+\sum_{i=1}^{K} \sum_{j=1}^{L} \exp \left(\gamma\left(s_{n}^{j}-s_{p}^{i}+m\right)\right)\right] \\ &=\log \left[1+\sum_{j=1}^{L} \exp \left(\gamma\left(s_{n}^{j}+m\right)\right) \sum_{i=1}^{K} \exp \left(\gamma\left(-s_{p}^{i}\right)\right)\right] \end{aligned}

对于粗分类来说,softmax可以分解为:类内(onehot 为1的,只有一个) + 类外(某一类和其他类组成,N-1 个)

再来看松弛变量 \gamma(有的论文里面叫 温度 T),为什么需要 \gamma,举例说明:
------------------------------------------------------------------
x = [1 2 3 4]
softmax(x) = [0.0321 0.0871 0.2369 0.6439]

从这个例子来看,本来1和4只差4倍,通过指数函数的放大作用,Softmax后的结果相差大约20倍。这样看,Softmax起到了近似 one-hot max 的作用,但 0.6439 其实也不算靠近1,近似效果不佳。
-----------------------------------------------------------------
x放大十倍
x = [10 20 30 40]
softmax(x) = [9.36e-14 2.06e-9 4.54e-5 1.00]
------------------------------------------------------------------
x = [0.1 0.2 0.3 0.4]
softmax(x) = [0.2138 0.2363 0.2612 0.2887]
------------------------------------------------------------------

相似度加权,优化更加灵活

1. 相似度加权

于是给每个相似度增加了一个权重 \alpha_n, \alpha_p

\begin{aligned} \mathcal{L}_{\text {circle}} &=\log \left[1+\sum_{i=1}^{K} \sum_{j=1}^{L} \exp \left(\gamma\left(\alpha_{n}^{j} s_{n}^{j}-\alpha_{p}^{i} s_{p}^{i}\right)\right)\right] \\ &=\log \left[1+\sum_{j=1}^{L} \exp \left(\gamma \alpha_{n}^{j} s_{n}^{j}\right) \sum_{i=1}^{K} \exp \left(-\gamma \alpha_{p}^{i} s_{p}^{i}\right)\right. \end{aligned}

其中
\left\{\begin{aligned} \alpha_{p}^{i} &=\left[O_{p}-s_{p}^{i}\right]_{+} \\ \alpha_{n}^{j} &=\left[s_{n}^{j}-O_{n}\right]_{+} \end{aligned}\right.

与最优点的距离越近,这个权重就越小,与最优点的距离越远,这个权重就越大

2. Margin


Cicle Loss的优点:

image.png

消融实验

  1. 权重的加入,对不同的 \gamma,性能比较稳定

    image.png
  2. S_p, S_n 的变化

    image.png

可以看到,circle loss的 S_p增加得比SM-softmax更快,最后的拟合效果也更好。

上一篇下一篇

猜你喜欢

热点阅读