工作生活

MURAUER: Mapping Unlabeled Real

2019-07-02  本文已影响0人  中了胖毒

文章链接

摘要

​ 用于学习三维手部姿势估计模型的数据标记是一项巨大的工作。由于合成数据和真实数据存在'domain gap',直接使用现成的、准确的模拟合成数据效果不好。然而,要成功地利用合成数据,目前最先进的方法仍然需要大量标记的真实数据结合训练。本文通过学习从真实数据的特征映射到合成数据的特征来消除'domain gap',并使用大量的同手势双视角未标记的真实数据训练网络,改善性能。

关键

  1. 手势预测

    使用大量合成数据训练\hat y = p(f(x))

    • 特征提取模块f

      z = f(x)

    • 手势回归模块p

      \hat y = p(z)

    • 损失函数
  2. 从无标注数据学习真实\rightarrow合成映射

    • 学习特定于手势的隐藏(潜在)特征表示

      使用同手势双视角图片训练

      其中, z^{(i)}x^{(i)}图片经f提取的特征,\hat x^{(j)}为预测的另一视角的图片

      所以,损失函数为


      通过此方法,使f学习提取特定于手势的特征

    • 对齐真实数据和合成数据在隐藏空间的分布

      ​ 基于上一步,我们能学到特定于手势的潜在特征,将其看作分类问题看待,即相当于相似的手势在潜在空间上会聚集,形成一个个簇。而考虑到真实数据和合成数据的差异性,虽然它们经过训练都形成各自的簇(即手势的离散分布),但是这些簇在隐藏空间上的分布位置是不同的。本文提出对齐二者的分布来解决真实特征到合成特征的映射问题。

      ​ 传统方法都是使用对应的真实-合成图片对来训练此映射,本文提出一个新颖的方法:使用对抗网络的方法,设计一个生成器(映射函数)m,使真实图片的潜在特征映射为合成图片潜在特征。同时设计一个分类器h,输入为前一步提取的隐藏特征,判断输入的图片是否真实图片,以此强迫网络对齐真实数据和合成数据在隐藏空间的分布。

      l_r = 1表示输入为真实图片,l_s = 0为合成图片

      则,分类器的损失即所有预测错的图片数:


      R为真实图片集,S为合成图片集

      生成器的损失即所有被检测为真实的图片数:


  3. 网络结构

结果

上一篇下一篇

猜你喜欢

热点阅读