[读] Wide-Context Semantic Image

2020-12-10 本文已影响0人晓智AI

本文任务：Image Extrapolation 图像外推

研究发现：提出的semantic regeneration network语义再生网络和多种空间相关的损失函数可以解决size expansion尺寸扩张和one-side constraints单边约束问题。

论文贡献：提出深度生成模型Semantic Regeneration Network(SRN)；提出实用的上下文归一化(CN)模块和相对空间变体损失(RSV)；方法可用于多种应用。

Abstract

用可能的结构(structure)和细节(detail)外推视觉上下文(visual context)和图像边界(image borders)，存在两个主要问题，即尺寸扩展size expansion和单边约束one-side constraints。

本文提出具有特殊贡献的语义再生网络(semantic regeneration network)和多种空间相关(spatial related)的损失，结果包含一致的结构和高质量的纹理。

Introduction

人类与生俱来能够基于有限的视觉内容(limited visual content)感知看不见的周围环境(unseen surroundings)。本文专注于推断图像边界外看不见的内容，生成语义上有意义semantically meaningful且一致的结构和纹理consistent structure and texture。

目前现有的方法应用于内容生成时存在各自局限性(respective limitations)，基于外部图像(External-image-based)的算法需要大量或结构非常相似的参考图像，而基于内部像素/补丁(internal pixels/patches-based)的方法通常会产生明显相似或重复的图案(similar or repeated patterns)。

本文方法可以从一小部分人脸生成带有头发和背景的完整肖像(full portrait)，可以预测未知像素数量是已知像素的3倍。但是应用于这个上下文生成任务，仍需要考虑图像尺寸改变(Image Size Change)和单边约束(One-sided Constraints)问题。

Method

3.1 Feature Expansion
Semantic Regeneration Network(SRN)可以生成超出图像边界的任意大小的语义结构，而无需训练多个模型。它直接从小尺寸输入中学习语义特征，通过避免常见填充和上采样过程中的偏差。

SRN包含特征扩展网络Feature Expansion Network (FEN)和上下文预测网络Context Prediction Network (CPN)的两部分。 FEN将小尺寸图像作为输入并提取特征。这样的特征和外推指示符被馈送到CPN以重建最终的扩展结果。随着特征提取和图像重建的分离，我们网络的学习和推理变得适当而高效。

此外，设计的损失和其他处理模块使我们的网络适应单边约束，从而生成语义上有意义的结构和自然纹理。

Feature Expansion类似encoder-decoder结构，
$s(F)_{i,j,k}=F_{\lfloor i/r1 \rfloor,\lfloor j/r2 \rfloor,c\prime r_2 \cdot \mod(i,r_1),c\prime \cdot \mod(j,r_2)}$
与原始的子像素卷积(sub-pixel convolution)相比，提出的变体放宽了 $r_1 = r_2$ 的约束，能够解决 $r_1 \neq r_2$ 场景。

特征扩展网络（FEN）用于学习潜在的上下文特征。实验结果表明，早期批处理中填充的像素可以作为后期生成的先验。直接以可用像素为条件的计算在保真度和视觉自然度方面都可以产生更好的性能[33、40、26]。因此，我们的模型无需预先定义就可以直接推断给定的视觉数据。

3.2 Context Prediction
Context Prediction Network(CPN)上下文预测网络也使用类似编码器/解码器的网络。输入是f(X)和填充指示符（即二值掩码）的串联，其中0表示已知像素，1表示未知像素，用M表示。输出是大小为r1h×r2w×c的 $\hat{Y}$ 。开发了上下文归一化模块(context normalization module)以协调填充区域与已知区域之间的特征分布。

上下文预测网络(CPN)背后的基本原理是双重的，而不是从粗到精框架中通常使用的简单优化阶段。首先，它包含填充余量(FEN中未包括)以指示预测的位置。其次，除了填充余量，网络输入还包括FEN学习的上下文特征，而不是粗略的预测。这些功能可以通过编码器-解码器和我们设计的上下文归一化模块通过压缩正确处理。

最近的研究表明图像风格是以图像特征统计量为特征的。为提高生成图像的风格一致性，本文受instance normalization和AdaIN启发，提出了一个上下文归一化Context Prediction(CN)模块。本质上，它将均值和方差从已知特征转移到未知区域，这使生成的内容超出了一侧的限制，并增强了输入区域和预测区域之间的颜色/纹理一致性。
$t(f(X),\rho)=[\rho \cdot n(f(X_{\Omega},X_{\bar{\Omega}})+(1-\rho)f(X_{\Omega})]\odot M\downarrow + f(X_{\bar{\Omega}})\odot(1-M\downarrow)$
$n(x_1,x_2)=\frac{x_1-\mu(x_1)}{\sigma(x_1)}\cdot \sigma(x_2)+\mu(x_2)$
在CN中并入了融合(blend)步骤。由于对于面部和身体等语义敏感目标，来自已知和未知区域的特征统计信息可能会有所不同，因此融合对于本文方法至关重要。

3.3 损失设计
优化目标包括重构损失reconstruction loss、纹理一致性损失texture consistency loss和对抗损失adversarial loss。

相对空间变体损失Relative Spatial Variant Loss(RSV)
$M_{\omega}=M_{\omega}^{c-1}/\max(M_{\omega}^c,\epsilon)$

重建损失Reconstruction Loss
$\mathcal{L}_s=||(Y-G(X,m;\theta))\odot M_{\omega}||_1$

隐式多元化MRF损失Implicit Diversified MRF Loss
$\mathcal{L}_M(L)=-\log(\frac{1}{Z}\sum_{s\in Y^L}\max_{v\in\hat{Y}}\bar{RS}(v,s))$
在实验中计算的是 $G(X,m; \theta)$ 和Y在预训练VGG19的conv3_2和conv4_2的 $\mathcal{L}_{mrf}$ 之和。

与其他损失，例如style loss及其变体，侧重于纹理或风格的恢复相比，ID-MRF loss通过参考真值中它们最相似的patch来增强局部图像细节。

上下文对抗损失Contextual Adversarial Loss
$D_{context}(\hat{Y})=\frac{\sum_{p\in P(\hat{Y})P}}{\sum_{q\in M\downarrow}q}$
$\mathcal{L}_{adv}^{n}=-E_{x\sim P_x}[D_n(G(X;\theta))]+ \lambda_{gp}E_{\hat{X}\sim P_{\hat{x}}}[(||\triangledown_{\hat{x}}D_n(\hat{x})\odot M_{\omega}||_2-1)^2]$
$\mathcal{L}_{adv}=(\mathcal{L}_{adv}^{context}+\mathcal{L}_{adv}^{global})/2$

总的损失函数
$\mathcal{L}=\lambda_s \mathcal{L}_s + \lambda_{mrf} \mathcal{L}_{mrf} + \lambda_{adv} \mathcal{L}_{adv}$

Experiments

三种实验设置：
CelebA-HQ/ETHZ/CUB200 128×128->256×256
Paris StreetView/Places2/Cityscapes 256×256->256×512
Deepfashion 64×128->256×128

评价指标：
PSNR/SSIM/blind user study
每个问卷包括40个成对比较，涉及两种基于相同输入的不同方法的结果。有40位参与者被邀请参加用户研究。他们需要在每对中选择更逼真的图像。图像均以相同的分辨率（256×128、256×256或256×512）显示。比较是通过不同方法以及左右顺序随机进行的。参与者有无限的时间来决定。在表2给出的所有条件下，本文方法均优于对比方法。

本文方法可以从有限视角的输入中推断出具有精细的细节。与基准CA相比，本文方法在语义结构、纹理和边界一致性方面表现更好。此外，由于模型的填充余量是任意的，因此SRN可以从不同位置推断视觉上下文。

SRN-HR是SRN变体，将FE替换为普通卷积。图8显示了给定架构之间的比较。说明SRN和SRN- HR比CA和ED在创建更自然的头发和脸型和更少的视觉假象方面提供了更好的预测，这验证了SRN设计的有效性。与SRN- HR相比，SRN产生的头发纹理更真实，推理时间更短。

在亚像素级sub-pixel level上使用SRN的结果比使用deconv和展开unfold的结果具有更好的视觉效果。图9展示了面部结构和纹理的细节。

CN在数量和质量上改善了SRN。在图10中，CN在训练前和训练完成阶段协调了颜色和边框的一致性。

与仅具有对抗性的损失相比，具有上下文对抗性损失的SRN可以预测更清晰的头发细节。

与常见的l1损失(l1 loss)相比，具有相对空间变体损失的SRN预训练(relative spatial variant loss)具有可比的保真度。但是，它产生的语义边界（图12中的发际线和面部形状）比
置信驱动的损失(confidence-driven )和常见的l1损失(l1 loss)。

Conclusion

除了对图片进行内容外推，SRN还发现了纹理合成和变形的应用。关于局限性，现在每个训练过的模型都有特定的扩展比率(例如，一个基于输入预测三倍以上像素的模型只会在相同的设置下产生结果)。此外，像Places2这样拥有上千种场景类型的庞大数据集，生成模型很难与之匹配。随着GAN模型研究的新突破，这一问题可能得到缓解。

本文探索了一种深度学习模型来对语义敏感对象进行图像外推。总结说，挑战在于尺寸扩展和单边限制，并通过提出新的网络模块和损失函数设计来解决这些问题。本文方法达到了不错的语义扩展效果。

[读] Wide-Context Semantic Image

猜你喜欢

热点阅读