Disentangled Representation Lear

2018-10-05 本文已影响0人 Junr_0926

1. 前言

这是CVPR2017的文章。

2. 介绍

在这篇论文中，作者提出了Disentangled Representation GAN(DR-GAN)。如下图：

Figure 1

如下图是之前的GAN和作者提出的DR-GAN的对比图：

GAN
传统的GAN如图中的(a)所示，G的输入是一个随机向量，产生一个合成的图片。
作者提出了如图中(d)所示，使用一个encoder-decoder结构作为

（1）
也就是说

2,3

3.2 Single-Image DR-GAN

Single-Image DR-GAN和传统的GAN有两处明显的区别

一是它使用一个encoder-decoder结构作为generator来学习人脸图片的identity representation。这个表示就是一个人脸的等价的特征表示，它是encoder的输出，decoder的输入。
二是在人脸识别中，可能存在一些别的特征，例如不同姿态的人脸，因此这个特征可能包含了这些信息。为了应对这种情况，除了将id作为label，还将姿态，亮度等信息作为label。

根据前面所描述的，我们可以对问题进行表述：
给定一张人脸图片： $x$ 和它的label： $y={y^d, y^p}$ ，前者为id，后者为姿态。我们的目标是：1.学习一个姿态无关的人脸特征表示，2.合成一张相同id但是不同姿态的人脸图片。并且，这里的 $D$ 是一个多目标的CNN网络，也就是它包含了两个部分： $[D^d, D^p]$ 。
也就是说，给定输入人脸图片 $x$ ， $D$ 会产生它的id和姿态，给定一个生成人脸 $\hat{x} = G(x,c,z)$ ， $D$ 会努力预测它为假。如下式：

与此同时， $G$ 包含了一个encoder, 一个decoder。encoder产生一个输入人脸图片的特征表示： $f(x) = G_{enc}(x)$ ，decoder输出生成的人脸图片： $\hat{x} = G_{dec}(f(x), c, z)$ ，其中 $c$ 是目标姿态， $z$ 是噪音。如下式：

Figure 3

(6)

需要注意的是，所有的 $G_{enc}$ 共享一组参数。

Disentangled Representation Lear

1. 前言

2. 介绍

3.2 Single-Image DR-GAN

猜你喜欢

热点阅读