行人重识别 Unsupervised Person Re-ide

2019-05-21  本文已影响0人  EverydayRunning

\mathcal{X}=\left\{x_{i}\right\}_{i=1}^{N_{u}}是无标签的重识别数据集,x_i是监控环境下采集的无标签行人图像。\mathcal{Z}=\left\{z_{i}, w_{i}\right\}_{i=1}^{N_{a}}是有标签的辅助重识别数据集,z_i是有标签的行人数据,对应的标签分别为w_{i}=1, \cdots, N_{p},其中N_p是参考人员的个数。参考人员和无标签的目标人员完全不重叠。我们的目的在于学习一个软多标签函数l(\cdot)使得y=l(x, \mathcal{Z}) \in(0,1)^{N_{p}},所有的维度值加起来为1。每个维度值代表对应的参考人员的可能性。同时,在重识别任务的软多标签的指导下,学习一个判决式的深度嵌入特征f(\cdot)。特别的,我们提出使用软多标签来进行困难负样本的挖掘,比如,对于视觉上相似的图像,我们通过比较软多标签来确定它们到底是正样本还是困难负样本。为了对无标签图像x和所有参考行人进行有效比较,我们引入了参考代理学习,比如,我们学习一系列的参考代理\left\{a_{i}\right\}_{i=1}^{N_{p}},每个参考代理代表在包含无标签行人f(x)和代理\left\{a_{i}\right\}_{i=1}^{N_{p}}的共享联合嵌入特征中的一个参考行人。因此,我们可以通过比较f(x)和参考代理\left\{a_{i}\right\}_{i=1}^{N_{p}}来学习x的软多标签y。软多标签函数就简化为y=l\left(f(x),\left\{a_{i}\right\}_{i=1}^{N_{p}}\right)

1. 深度软多标签参考学习 Deep soft multilabel reference learning(MAR)

首先,介绍已知参考代理\left\{a_{i}\right\}_{i=1}^{N_{p}}f(x)\left\{a_{i}\right\}_{i=1}^{N_{p}}之间的参考可比性时,软多标签指导下的复杂负样本挖掘。为了方便联合嵌入学习,我们加入了一个单位标准化约束,比如,\|f(\cdot)\|_{2}=1,\left\|a_{i}\right\|_{2}=1, \forall i,在超球面上进行嵌入学习。在嵌入超平面上,特征对f(x_i)f(x_j)的余弦相似度简化成了二者的内积f(x_i)^ {\text T}f(x_j),对于参考代理也一样。

2. 软多标签指导下的复杂负样本挖掘 Soft multilabel-guided hard negative mining

代表标签可能性的软多标签的各维数据加起来等于1,定义软标签函数为:

y^{(k)}=l\left(f(x),\left\{a_{i}\right\}_{i=1}^{N_{p}}\right)^{(k)}=\frac{\exp \left(a_{k}^{\mathrm{T}} f(x)\right)}{\Sigma_{i} \exp \left(a_{i}^{\mathrm{T}} f(x)\right)}

y^{(k)}y的第k维数据。软多标签指导下的复杂负样本挖掘关注于相似的样本,而不是不同的人,致力于利用软性多标签将相似的样本区分开来。鉴于软多标签具有相对可比性特性,我们对表示一致性进行了探索。除了视觉特征上的绝对相似性,相同人的图片也应该具有相似的相对可比较特性(比如,和其他的参考人具有平等的相似度)。作如下假设

假设1:如果一份无标签的图像对具有较高的特征相似性f\left(x_{i}\right)^{\mathrm{T}} f\left(x_{j}\right),称这一图像对为相似对。如果一个相似对具有很高的相似可比较特性,那么它很可能是正匹配对。否则,就很可能是复杂负样本对。

对于软多标签可比较特性的度量,基于L1距离,提出了软多标签度量

A\left(y_{i}, y_{j}\right)=y_{i} \wedge y_{j}=\Sigma_{k} \min \left(y_{i}^{(k)}, y_{j}^{(k)}\right)=1-\frac{\left\|y_{i}-y_{j}\right\|_{1}}{2}

每个参考人k在认为该对图像为正样本的情况下,给出各自的度量\min \left(y_{i}^{(k)}, y_{j}^{(k)}\right),软多标签度量在每个参考人面前累积。

根据假设一,挖掘复杂负样本需要同时考虑特征相似性和软多标签度量。我们组建了挖掘率为p的软多标签指导下的复杂负样本挖掘。定义假设一中的相似对的个数为pM,这些是无标签数据集\mathcal{X}M=N_{u} \times\left(N_{u}-1\right) / 2个图像对中相似性最高的pM个。正样本集合\mathcal{P}和复杂负样本集合\mathcal{N}的划分根据以下公式:

\begin{aligned} \mathcal{P} &=\left\{(i, j) | f\left(x_{i}\right)^{\mathrm{T}} f\left(x_{j}\right) \geq S, A\left(y_{i}, y_{j}\right) \geq T\right\} \\ \mathcal{N} &=\left\{(k, l) | f\left(x_{k}\right)^{\mathrm{T}} f\left(x_{l}\right) \geq S, A\left(y_{k}, y_{l}\right)<T\right\} \end{aligned}

S是图像对降序排序后的第pM个余弦相似度(内积),T是软多标签度量定义的阈值。

软多标签判决嵌入式学习:

                                        L_{M D L}=-\log \frac{\overline{P}}{\overline{P}+\overline{N}}

\overline{P}=\frac{1}{|\mathcal{P}|} \Sigma_{(i, j) \in \mathcal{P}} \exp \left(-\left\|f\left(z_{i}\right)-f\left(z_{j}\right)\right\|_{2}^{2}\right)\overline{N}=\frac{1}{|\mathcal{N}|} \Sigma_{(k, l) \in \mathcal{N}} \exp \left(-\left\|f\left(z_{k}\right)-f\left(z_{l}\right)\right\|_{2}^{2}\right)

通过寻找最小的L_{MDL}就可以完成判决式特征嵌入。\mathcal{P}\mathcal{N}是在训练过程中动态构建的,我们在模型训练的过程中,根据最新生成的特征嵌入,在每个batch中构建\mathcal{P}\mathcal{N}。也就是说,我们将M替换为M_{batch}=N_{batch}\times (N_{batch}-1)/2N_{batch}是一个mini-batch中无标签图像个数。

3. 跨视角一致性软多标签学习 Cross-view consistent soft multilabel learning

为了适应众多图像对都是跨视角的,因此学习算法必须具有跨视角的一致性。从分布的角度来说,已知的参考行人和无标签数据集,可比较特性的分布应该只取决于人的外部特征的分布,而且独立于相机视角。基于以上分析,提出了跨视角一致性软多标签学习损失函数:

L_{C M L}=\Sigma_{v} d\left(\mathbb{P}_{v}(y), \mathbb{P}(y)\right)^{2}

其中,\mathbb{P}(y)\mathcal{X}中的软多标签分布,\mathbb{P}_v(y)是第v个相机视角的软多标签分布,d(\cdot,\cdot)是两个分布之间的距离。可以使用任何的分布距离,比如KL divergence和Wasserstein距离。我们观察到软多标签的分布接近于log-normal分布,因此我们选择简化2-Wasserstein距离:
L_{C M L}=\Sigma_{v}\left\|\mu_{v}-\mu\right\|_{2}^{2}+\left\|\sigma_{v}-\sigma\right\|_{2}^{2}

其中,\mu / \sigma是软多标签的log向量的平均值和标准差的比值,\mu_v / \sigma_v是第v个相机视角的相应比率。

4. 参考代理学习 Reference agent learning

参考代理的角色相当于代表一个在嵌入特征中独一无二的人。参考代理应该互相具有区分性,每个应该对对应的人员具有代表性。考虑到参考代理是在软多目标函数里进行比较,我们使用如下的代理损失函数:

L_{A L}=\Sigma_{k}-\log l\left(f\left(z_{k}\right),\left\{a_{i}\right\}\right)^{\left(w_{k}\right)}=\Sigma_{k}-\log \frac{\exp \left(a_{w_{k}}^{\mathrm{T}} f\left(z_{k}\right)\right)}{\Sigma_{j} \exp \left(a_{j}^{\mathrm{T}} f\left(z_{k}\right)\right)}

其中z_k是辅助数据集中标签为\omega_k的第k个人员图像。

通过最小化损失函数L_{AL},我们不只判决式地训练了参考代理,而且赋予了具有基本辨别能力的嵌入特征,这有利于软多标签指导下的复杂负样本挖掘。同时,它强有力地强化了软多标签函数的有效性。在上式中,软多标签函数会学习分配参考人员图像f\left(z_{k}\right),通过比较f\left(z_{k}\right)和所有的代理。L_{AL}是在辅助数据集里最小化,为了进一步提高无标签目标数据集软多标签的有效性,提出如下的联合嵌入学习:

参考可比性的联合嵌入学习

其中,\mathcal{M}_{i}=\left\{j\left\|a_{i}-f\left(x_{j}\right)\right\|_{2}^{2}<m\right\}代表第i个代理a_i挖掘的数据, m是基于代理的边沿,其推荐值为1。[\cdot]_{+}是铰链函数,\mathcal{W}_{i}=\left\{k | w_{k}=i\right\}。拉中项\left\|a_{i}-f\left(z_{k}\right)\right\|_{2}^{2}加强了参考代理的代表性,以便提高a_i表示交叉域图像对\left(a_{i}, f\left(x_{j}\right)\right)中的一个参考人员的有效性。

参考代理学习:

L_{R A L}=L_{A L}+\beta L_{R J} 其中\beta平衡了损失幅度。

5. 模型训练和测试

MAR的损失目标函数为L_{M A R}=L_{M D L}+\lambda_{1} L_{C M L}+\lambda_{2} L_{R A L}

\lambda_1\lambda_2是超参数,调节各部分的比重。

上一篇下一篇

猜你喜欢

热点阅读