MURAUER: Mapping Unlabeled Real

2019-07-02 本文已影响0人中了胖毒

摘要

用于学习三维手部姿势估计模型的数据标记是一项巨大的工作。由于合成数据和真实数据存在'domain gap'，直接使用现成的、准确的模拟合成数据效果不好。然而，要成功地利用合成数据，目前最先进的方法仍然需要大量标记的真实数据结合训练。本文通过学习从真实数据的特征映射到合成数据的特征来消除'domain gap'，并使用大量的同手势双视角未标记的真实数据训练网络，改善性能。

关键

手势预测

使用大量合成数据训练 $\hat y = p(f(x))$
- 特征提取模块 $f$
  
  $z = f(x)$
- 手势回归模块 $p$
  
  $\hat y = p(z)$
- 损失函数
从无标注数据学习真实 $\rightarrow$ 合成映射
- 学习特定于手势的隐藏(潜在)特征表示
  使用同手势双视角图片训练
  其中, $z^{(i)}$ 为 $x^{(i)}$ 图片经 $f$ 提取的特征， $\hat x^{(j)}$ 为预测的另一视角的图片
  
  所以，损失函数为
  
  通过此方法，使 $f$ 学习提取特定于手势的特征
- 对齐真实数据和合成数据在隐藏空间的分布
  
  基于上一步，我们能学到特定于手势的潜在特征，将其看作分类问题看待，即相当于相似的手势在潜在空间上会聚集，形成一个个簇。而考虑到真实数据和合成数据的差异性，虽然它们经过训练都形成各自的簇(即手势的离散分布)，但是这些簇在隐藏空间上的分布位置是不同的。本文提出对齐二者的分布来解决真实特征到合成特征的映射问题。
  
  传统方法都是使用对应的真实-合成图片对来训练此映射，本文提出一个新颖的方法：使用对抗网络的方法，设计一个生成器(映射函数) $m$ ，使真实图片的潜在特征映射为合成图片潜在特征。同时设计一个分类器 $h$ ，输入为前一步提取的隐藏特征，判断输入的图片是否真实图片，以此强迫网络对齐真实数据和合成数据在隐藏空间的分布。
  
  令 $l_r = 1$ 表示输入为真实图片， $l_s = 0$ 为合成图片
  
  则，分类器的损失即所有预测错的图片数：
  
  R为真实图片集，S为合成图片集
  
  生成器的损失即所有被检测为真实的图片数：
网络结构

MURAUER: Mapping Unlabeled Real

摘要

关键

结果

猜你喜欢

热点阅读