基于神经网络的图像风格迁移（Style Transfer）

2019-05-11 本文已影响132人 Mr_Relu

编程环境：

anaconda + python3.7
GitHub代码有待整理更新,欢迎star or fork~GitHub主页

声明：创作不易，未经授权不得复制转载
statement:No reprinting without authorization

内容概览：

•完成一个简单的neural style transfer网络：
•通过VGG提取图像特征;
•介绍neural style transfer 的基本原理以及流程。
•代码实现

Part one

风格迁移的工作是将原图的上下文内容与参考图的风格进行融合，这种融合使得输出的图片在内容上接近content_image，在风格上接近style_image。要完成以上两点，需要定义输出图在内容上和风格上与输入图的Loss。
Reference：Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style[J]

1. Neural style transfer

形如将输入图片content_image:

1.jpg
通过style image:

1.jpg
最终变化成带有style_image 风格的content_image：

1.png

2. Method

风格迁移的工作是将原图的上下文内容与参考图的风格进行融合，这种融合使得输出的图片在内容上接近content_image，在风格上接近style_image。要完成以上两点，需要定义输出图在内容上和风格上与输入图的Loss。

2.1内容差距我们用两张图片像素点的差的平方来衡量：

image.png

2.2 style loss

风格差距通过Gram矩阵来定义:

image.png

Gram矩阵就是在这个特征图上面定义出来的。每个特征图的大小一般是 MxNxC 或者是 CxMxN 这种大小，这里C表示的时候厚度。Gram矩阵的大小是有特征图的厚度决定的，等于 CxC。把特征图中第 i 层和第 j 层取出来，这样就得到了两个 MxN的矩阵，然后将这两个矩阵对应元素相乘然后求和就得到了 Gram(i, j)，同理 Gram 的所有元素都可以通过这个方式得到。这样 Gram 中每个元素都可以表示两层特征图的一种组合，就可以定义为它的风格。
Style loss计算方式与content loss 基本相同：

image.png

Part two

1) 读取图像

定义load_image函数，将图像读入，根据需要进行resize(size越大，所需训练时间越长)，而后将图片矩阵（三维：HWChannel）转为4维得张量返回，以适应神经网络的输入。

2) 用VGG19抽取特征

image.png
VGG19可以分为5个block，每个block都是由若干卷积层及之后的池化层组成，这5个block的池化层都是最大池化，只是卷积层的层数不同，第一个block有2层卷积（conv1_1和conv1_2），第二个block也是2层卷积，之后的3个block都是4层卷积，最后是两个全连接层（FC1和FC2）和一个用于分类的softmax层。但是风格迁移任务不同于物体识别，所以我们不需要最后的两个全连接层和softmax层。

image.png
最左侧的两张图片（input image）一张是作为内容输入，一张是作为风格输入，分别经过VGG19的5个block，由浅及深可以看出，得到的特征图（feature map）的高和宽逐渐减小，但是深度是逐渐加大，可以看出，对于内容图片特征的提取在很大程度上是保留了原图的信息，但是对于风格图片来说，基本上看不出原图的样貌，而是可以粗略的认为提取到了风格。

image.png
上图比较清晰的解释了对于content 和style loss的计算。预先准备一张随机产生的噪声图片（结果输出的合成图），我们需要不断的在噪声图片上迭代，直至得到结合了内容和风格的合成图片，实验中可以直接简化将内容图片作为随机噪声图。
对于内容loss的计算，上图只取了第四个block的输入进行了计算，这样也能达到效果，并减少计算量，实验中对于5个block的输出都计算了content loss。
参考pytorch的官方风格迁移教程，其计算方案与上图相同
https://pytorch.org/tutorials/advanced/neural_style_tutorial.html

3）构建模型，计算LOSS

定义VGG模型，前向时抽取0,5,10,19,28层卷积特征（对应5个block）,注意为了符合vgg19的输入要求，输入的style和content图片大小需一致，并且需要进行transform的操作。

4）利用梯度下降训练.

反向求导与优化，三句代码即可：
optimizer.zero_grad()
loss.backward()
optimizer.step()

5）结果展示：（减小了图片尺寸加速训练）

image.png

基于神经网络的图像风格迁移（Style Transfer）

编程环境：

内容概览：

Part one

1. Neural style transfer

2. Method

2.1内容差距我们用两张图片像素点的差的平方来衡量：

2.2 style loss

Part two

1) 读取图像

2) 用VGG19抽取特征

3）构建模型，计算LOSS

4）利用梯度下降训练.

5）结果展示：（减小了图片尺寸加速训练）

猜你喜欢

热点阅读