第43周学习总结——im2txt

2017-10-30  本文已影响0人  liuchungui

上周学习任务没有完成,这周终于完成了。主要的内容有:

一、重新学习了使用TFRecord、多线程输入数据处理

几个月前,看了《TensorFlow实战Google深度学习框架》这本书,然后懵懵懂懂做了一个图片识别的小东西。当时,仿照书上是将图片和label使用TFRecord格式进行存储,然后使用多线程与队列的形式组合数据。

当时不知道为什么这么做,现在明白了。给数据的方式有多种:

二、看了tensorflow官网的Importing Data教程,使用更高级的组合数据集

在重新学习了上面的内容之后,不经意间发现了Importing Data,然后发现官网将读取数据和组合数据封装的更简单了。

它整个流程特别简单:

三、看了img2txt的源码,知道了Image caption的实现原理

星期天下午的时候,看了im2text模型的代码,发现实现起来比NMT简单多了。

它实现的原理主要参考是来自下图的模型:


它首先通过Inception v3模型对图片进行特征读取,然后再加上一个全连接层,从而对图片进行embedding了。

然后,将图片Embeddings给LSTM,才知道原来这里只使用了一层RNN。

最后,解码层其实就和seq2seq差不多了。

四、开始了年终项目(比赛项目),做了数据处理部分

主要是看了项目的数据是怎么样的,然后将一份数据拆成5份,然后将里面对图片的描述变成id。

进度还不怎么样,在处理TFRecord数据时出现了问题。

总结与计划

总结:主要对队列与多线程读取、组合数据有更深刻的印象,然后可以将公司的代码改下,会有更好的性能。

计划:将年终项目的代码写完,然后开始跑模型。

上一篇下一篇

猜你喜欢

热点阅读