Perceptual Losses for Real-Time

2019-07-01 本文已影响0人 LuDon

基本结构

结构

基本结构有两部分组成：图像转换网络（image transfer network）和损失网络，损失网络作为损失方程。图像转换网络是一个深度残差卷积网络，将输入图像 $x$ 转换成输出图像 $y_{^}$ ，使用随机梯度下降法来训练

为了克服像素损失的缺点，使损失方程能够更好的度量感知和语义相关的信息。因此使用一个预训练好的分类网络定义特征损失和风格损失，作为损失函数。

图像转换网络

图像转换网络使用带有步长的卷积代替池化层进行下采样和上采样[#参考#]，网络的主体包括两个步长为2的卷积层（下采样）、五个残差块、两个步长为1/2的卷积层（上采样），不是残差块的层紧接着batch norm 和RELU，第一层和最后一层使用 $9 \times 9$ 的卷积核，其他层使用 $3 \times 3$ 的卷积层。
输入和输出：