行人重识别 Unsupervised Person Re-ide

2019-05-21 本文已影响0人 EverydayRunning

$\mathcal{X}=\left\{x_{i}\right\}_{i=1}^{N_{u}}$ 是无标签的重识别数据集， $x_i$ 是监控环境下采集的无标签行人图像。 $\mathcal{Z}=\left\{z_{i}, w_{i}\right\}_{i=1}^{N_{a}}$ 是有标签的辅助重识别数据集， $z_i$ 是有标签的行人数据，对应的标签分别为 $w_{i}=1, \cdots, N_{p}$ ，其中 $N_p$ 是参考人员的个数。参考人员和无标签的目标人员完全不重叠。我们的目的在于学习一个软多标签函数 $l(\cdot)$ 使得 $y=l(x, \mathcal{Z}) \in(0,1)^{N_{p}}$ ,所有的维度值加起来为1。每个维度值代表对应的参考人员的可能性。同时，在重识别任务的软多标签的指导下，学习一个判决式的深度嵌入特征 $f(\cdot)$ 。特别的，我们提出使用软多标签来进行困难负样本的挖掘，比如，对于视觉上相似的图像，我们通过比较软多标签来确定它们到底是正样本还是困难负样本。为了对无标签图像 $x$ 和所有参考行人进行有效比较，我们引入了参考代理学习，比如，我们学习一系列的参考代理 $\left\{a_{i}\right\}_{i=1}^{N_{p}}$ ，每个参考代理代表在包含无标签行人 $f(x)$ 和代理 $\left\{a_{i}\right\}_{i=1}^{N_{p}}$ 的共享联合嵌入特征中的一个参考行人。因此，我们可以通过比较 $f(x)$ 和参考代理 $\left\{a_{i}\right\}_{i=1}^{N_{p}}$ 来学习 $x$ 的软多标签 $y$ 。软多标签函数就简化为 $y=l\left(f(x),\left\{a_{i}\right\}_{i=1}^{N_{p}}\right)$ 。

1. 深度软多标签参考学习 Deep soft multilabel reference learning(MAR)

首先，介绍已知参考代理 $\left\{a_{i}\right\}_{i=1}^{N_{p}}$ 和 $f(x)$ 与 $\left\{a_{i}\right\}_{i=1}^{N_{p}}$ 之间的参考可比性时，软多标签指导下的复杂负样本挖掘。为了方便联合嵌入学习，我们加入了一个单位标准化约束，比如， $\|f(\cdot)\|_{2}=1,\left\|a_{i}\right\|_{2}=1, \forall i$ ，在超球面上进行嵌入学习。在嵌入超平面上，特征对 $f(x_i)$ 和 $f(x_j)$ 的余弦相似度简化成了二者的内积 $f(x_i)^ {\text T}f(x_j)$ ，对于参考代理也一样。

2. 软多标签指导下的复杂负样本挖掘 Soft multilabel-guided hard negative mining

代表标签可能性的软多标签的各维数据加起来等于1，定义软标签函数为：

$y^{(k)}=l\left(f(x),\left\{a_{i}\right\}_{i=1}^{N_{p}}\right)^{(k)}=\frac{\exp \left(a_{k}^{\mathrm{T}} f(x)\right)}{\Sigma_{i} \exp \left(a_{i}^{\mathrm{T}} f(x)\right)}$

$y^{(k)}$ 是 $y$ 的第 $k$ 维数据。软多标签指导下的复杂负样本挖掘关注于相似的样本，而不是不同的人，致力于利用软性多标签将相似的样本区分开来。鉴于软多标签具有相对可比性特性，我们对表示一致性进行了探索。除了视觉特征上的绝对相似性，相同人的图片也应该具有相似的相对可比较特性（比如，和其他的参考人具有平等的相似度）。作如下假设

假设1：如果一份无标签的图像对具有较高的特征相似性 $f\left(x_{i}\right)^{\mathrm{T}} f\left(x_{j}\right)$ ，称这一图像对为相似对。如果一个相似对具有很高的相似可比较特性，那么它很可能是正匹配对。否则，就很可能是复杂负样本对。

对于软多标签可比较特性的度量，基于L1距离，提出了软多标签度量

$A\left(y_{i}, y_{j}\right)=y_{i} \wedge y_{j}=\Sigma_{k} \min \left(y_{i}^{(k)}, y_{j}^{(k)}\right)=1-\frac{\left\|y_{i}-y_{j}\right\|_{1}}{2}$

每个参考人 $k$ 在认为该对图像为正样本的情况下，给出各自的度量 $\min \left(y_{i}^{(k)}, y_{j}^{(k)}\right)$ ，软多标签度量在每个参考人面前累积。

根据假设一，挖掘复杂负样本需要同时考虑特征相似性和软多标签度量。我们组建了挖掘率为 $p$ 的软多标签指导下的复杂负样本挖掘。定义假设一中的相似对的个数为 $pM$ ，这些是无标签数据集 $\mathcal{X}$ 中 $M=N_{u} \times\left(N_{u}-1\right) / 2$ 个图像对中相似性最高的 $pM$ 个。正样本集合 $\mathcal{P}$ 和复杂负样本集合 $\mathcal{N}$ 的划分根据以下公式：

$\begin{aligned} \mathcal{P} &=\left\{(i, j) | f\left(x_{i}\right)^{\mathrm{T}} f\left(x_{j}\right) \geq S, A\left(y_{i}, y_{j}\right) \geq T\right\} \\ \mathcal{N} &=\left\{(k, l) | f\left(x_{k}\right)^{\mathrm{T}} f\left(x_{l}\right) \geq S, A\left(y_{k}, y_{l}\right)<T\right\} \end{aligned}$

$S$ 是图像对降序排序后的第 $pM$ 个余弦相似度(内积)， $T$ 是软多标签度量定义的阈值。

软多标签判决嵌入式学习：

$L_{M D L}=-\log \frac{\overline{P}}{\overline{P}+\overline{N}}$

$\overline{P}=\frac{1}{|\mathcal{P}|} \Sigma_{(i, j) \in \mathcal{P}} \exp \left(-\left\|f\left(z_{i}\right)-f\left(z_{j}\right)\right\|_{2}^{2}\right)$ $\overline{N}=\frac{1}{|\mathcal{N}|} \Sigma_{(k, l) \in \mathcal{N}} \exp \left(-\left\|f\left(z_{k}\right)-f\left(z_{l}\right)\right\|_{2}^{2}\right)$

通过寻找最小的 $L_{MDL}$ 就可以完成判决式特征嵌入。 $\mathcal{P}$ 和 $\mathcal{N}$ 是在训练过程中动态构建的，我们在模型训练的过程中，根据最新生成的特征嵌入，在每个batch中构建 $\mathcal{P}$ 和 $\mathcal{N}$ 。也就是说，我们将 $M$ 替换为 $M_{batch}=N_{batch}\times (N_{batch}-1)/2$ ， $N_{batch}$ 是一个mini-batch中无标签图像个数。

3. 跨视角一致性软多标签学习 Cross-view consistent soft multilabel learning

为了适应众多图像对都是跨视角的，因此学习算法必须具有跨视角的一致性。从分布的角度来说，已知的参考行人和无标签数据集，可比较特性的分布应该只取决于人的外部特征的分布，而且独立于相机视角。基于以上分析，提出了跨视角一致性软多标签学习损失函数：

$L_{C M L}=\Sigma_{v} d\left(\mathbb{P}_{v}(y), \mathbb{P}(y)\right)^{2}$

其中， $\mathbb{P}(y)$ 是 $\mathcal{X}$ 中的软多标签分布， $\mathbb{P}_v(y)$ 是第v个相机视角的软多标签分布， $d(\cdot,\cdot)$ 是两个分布之间的距离。可以使用任何的分布距离，比如KL divergence和Wasserstein距离。我们观察到软多标签的分布接近于log-normal分布，因此我们选择简化2-Wasserstein距离：
$L_{C M L}=\Sigma_{v}\left\|\mu_{v}-\mu\right\|_{2}^{2}+\left\|\sigma_{v}-\sigma\right\|_{2}^{2}$

其中， $\mu / \sigma$ 是软多标签的log向量的平均值和标准差的比值， $\mu_v / \sigma_v$ 是第v个相机视角的相应比率。

4. 参考代理学习 Reference agent learning

参考代理的角色相当于代表一个在嵌入特征中独一无二的人。参考代理应该互相具有区分性，每个应该对对应的人员具有代表性。考虑到参考代理是在软多目标函数里进行比较，我们使用如下的代理损失函数：

$L_{A L}=\Sigma_{k}-\log l\left(f\left(z_{k}\right),\left\{a_{i}\right\}\right)^{\left(w_{k}\right)}=\Sigma_{k}-\log \frac{\exp \left(a_{w_{k}}^{\mathrm{T}} f\left(z_{k}\right)\right)}{\Sigma_{j} \exp \left(a_{j}^{\mathrm{T}} f\left(z_{k}\right)\right)}$

其中 $z_k$ 是辅助数据集中标签为 $\omega_k$ 的第k个人员图像。

通过最小化损失函数 $L_{AL}$ ，我们不只判决式地训练了参考代理，而且赋予了具有基本辨别能力的嵌入特征，这有利于软多标签指导下的复杂负样本挖掘。同时，它强有力地强化了软多标签函数的有效性。在上式中，软多标签函数会学习分配参考人员图像 $f\left(z_{k}\right)$ ，通过比较 $f\left(z_{k}\right)$ 和所有的代理。 $L_{AL}$ 是在辅助数据集里最小化，为了进一步提高无标签目标数据集软多标签的有效性，提出如下的联合嵌入学习：

参考可比性的联合嵌入学习

其中， $\mathcal{M}_{i}=\left\{j\left\|a_{i}-f\left(x_{j}\right)\right\|_{2}^{2}<m\right\}$ 代表第i个代理 $a_i$ 挖掘的数据, $m$ 是基于代理的边沿，其推荐值为1。 $[\cdot]_{+}$ 是铰链函数， $\mathcal{W}_{i}=\left\{k | w_{k}=i\right\}$ 。拉中项 $\left\|a_{i}-f\left(z_{k}\right)\right\|_{2}^{2}$ 加强了参考代理的代表性，以便提高 $a_i$ 表示交叉域图像对 $\left(a_{i}, f\left(x_{j}\right)\right)$ 中的一个参考人员的有效性。