神经风格迁移

2019-03-31 本文已影响0人 7NIC7

准备

一个style image 、一个 content image以及一个训练好的CNN（一般用VGG网络就可以，可以去github上下载）

style image

content image

输入

有三个，分别是：noise image、content image、 style image

功能

将style image和content image进行融合，即将style image的风格放到content image中，但又不损失content image里面的内容。

原理

从卷积神经网络的可视化可以知道，在低层的神经网络中会有一些纹理、颜色的一些低级特征识别，越往上层，学习到的feature map越复杂，就会出现一些特定的pattern，比如：人脸、鸟的腿等等。（具体可以参看这个可视化的paper）

1.所以考虑让content image在接近输出的神经层算content_feature_maps，让style image在接近输入的神经层算style_feature_maps.

2.对noise image做相同的操作，得到noise_style_feature_maps （获取maps的层数和style image相同）和 noise_content_feature_maps（获取maps的层数和content image相同）

3.计算noise_content_feature_maps和content_feature_maps之间的loss，记为content loss，计算方法如下：
$MSE=mean((noise\_content\_feature\_maps - content\_feature\_maps)^2)$

4.之后计算noise_style_feature_maps和style_feature_maps之间的loss，记为style loss,计算方法如下，即各自gram matrix的MSE：

什么是gram matrix？：

gram matrix是：一个vector x(列向量)，如果计算它的gram matrix就是 $x'x$ ，gram matrix可以衡量两个feature map之间的相似程度。

为什么不直接用MSE呢？

因为style衡量的是纹理、颜色等一不一样，所以计算的是某种相关性。而不需要像content那样每个像素点都比较接近(即内容比较接近)，所以在这里计算的是gram matrix的MSE。
$MSE_{gram\_matrix} = mean((gram\_matrix_{noise\_style\_feature\_maps} - gram\_matrix_{style\_feature\_maps})^2)$

5.最后呢，最小化style_loss+content_loss

结果

下面是我自己跑出来的结果，比较难看，但是已经有了风格迁移的味道，有些内容有点失真，我感觉应该是训练的不够，但是鉴于我的电脑太久远了，一运行就卡的不行，就这样的结果也是跑了很长时间的了。

鬼畜图片

代码

见我的github。代码里面只需要运行style_transfer.py文件即可。还有一个VGG网络的训练参数文件“vgg16.npy”需要下载，这个文件比较大，上传太费时了，可以去github上找，或者网盘。

有什么问题可以及时留言，欢迎批评指正！

神经风格迁移

准备

输入

功能

原理

结果

代码

猜你喜欢

热点阅读