Tensorflow实现Neural Style

2018-01-10  本文已影响0人  DayDayUpppppp

最近深度学习里面最cool的一个模型CNN卷积神经网络,搞明白了cnn的基本模型之后,跑了几个CNN的模型,算是CNN有一个基本的认识了。

这几天打算进阶一下,熟悉一些更复杂的模型。前几天在网上很火的图片风格合成,利用vgg学习内容图片A + 背景风格图片B的特征 ,然后生成一个新的图片,类似下图。

参考了一些paper和其他人分享的博客,打算自己实践一下。

对于一张图片的输入,CNN的每一层会捕捉到不同的特征(这个特征取决于loss function的设计)。但总的来说,CNN的底层捕捉简单的线条和边缘,但是随着网络的深入,CNN可以学到更加复杂和抽象的特征。如下图所示:

人脸识别的一个例子

Neural-style的原理也是相似的,利用CNN的提取内容图片的特征和风格图片的特征,将他们融合到一张随机噪声的背景图上面。

这里的CNN的模型用的是Vgg(包含16个卷积层和5个池化层),模型如下图所示:


所以,将内容图片和风格图片放入vgg里面之后,同上面讲的道理一样,vgg的每一层会捕捉到不同的特征,层数越高,捕捉到的特征会越复杂。如下图所示,(d)和(e)较好地保留了图像的高阶内容(high-level content)而丢弃了过于细节的像素信息。

网上很几个这样的例子,但是基本上都是拿paper的源码跑的。这个源码里面的代码,对刚刚入门tensorflow的新手很不友好。我自己写了一个比较易读的版本。核心代码,如下:

def main():
    net = build_vgg19(VGG_MODEL)
    # 内容图片
    content_img = read_image(CONTENT_IMG)
    # 风格图片
    style_img = read_image(STYLE_IMG)
    # 噪声图片
    noise_img = np.random.uniform(-20, 20, (1, IMAGE_H, IMAGE_W, 3)).astype('float32')

    sess = tf.Session()
    init = tf.global_variables_initializer()
    sess.run(init)

    #把content_img作为Vgg的输入,获得每一次的输出,存在content_outputs里面
    sess.run([net['input'].assign(content_img)])
    content_outputs={}
    for item in CONTENT_LAYERS:
        content_outputs[item[0]]=sess.run(net[item[0]])

    #把style_img作为Vgg的输入,获得每一次的输出,存在style_outputs里面
    sess.run([net['input'].assign(style_img)])
    style_outputs={}
    for item in STYLE_LAYERS:
        style_outputs[item[0]]=sess.run(net[item[0]])

    for key in content_outputs:
        print ('content : ',key)
    
    for key in style_outputs:
        print ('style : ',key)

    #计算loss
    #这里的key指的是某一层;content_outputs[key]是vgg预训练模型中每一层的输出;net[key]而是网络不断迭代后每一层的输出
    cost_content=sum([build_content_loss(content_outputs[key],net[key]) for key in content_outputs])
    cost_style  =sum([build_style_loss  (style_outputs[key],net[key])   for key in style_outputs  ])
    #cost_content=cost_content+sum(build_content_loss(content_outputs[key],net[key]))
    
    cost_total = cost_content + STYLE_STRENGTH * cost_style
    optimizer = tf.train.AdamOptimizer(2.0)
    train = optimizer.minimize(cost_total)

    #noise_img 
    sess.run(tf.global_variables_initializer())
    sess.run(net['input'].assign( INI_NOISE_RATIO * noise_img + (1.-INI_NOISE_RATIO) * content_img))
 
    if not os.path.exists(OUTOUT_DIR):
        os.mkdir(OUTOUT_DIR)
    sess.run(train)
    
    for i in range(ITERATION):
        sess.run(train)
        if i%500 ==0:
            result_img = sess.run(net['input'])
            print (sess.run(cost_total))
            write_image(os.path.join(OUTOUT_DIR,'%s.png'%(str(i).zfill(4))),result_img)

    write_image(os.path.join(OUTOUT_DIR,OUTPUT_IMG),result_img)
上一篇 下一篇

猜你喜欢

热点阅读