Deep-Learning-with-PyTorch-2.3 描
2020-09-09 本文已影响0人
追求科技的足球
2.3 描述场景的预训练网络
为了获得涉及自然语言的模型的第一手经验,我们将使用由罗若田慷慨提供的预先训练的图像捕获模型。 它是Andrej Karpathy的NeuralTalk2模型的实现。 当呈现自然图像时,这种模型会生成英文字幕来描述场景,如图2.9所示。 该模型在庞大的图像数据集上进行训练,并带有成对的句子描述:例如,“虎斑猫倚在木桌上,一只爪子放在激光鼠标上,另一只爪子放在黑色笔记本电脑上。”
图2.9 语言描述图片模型的概念
此字幕模型有两个相连的两半。 该模型的上半部分是一个网络,该网络学习生成场景的“描述性”数字表示(虎斑猫,激光鼠标,爪子),然后将其用作下半部分的输入。 后半部分是递归神经网络,通过将这些数字描述放在一起来生成连贯的句子。 该模型的两半在图像说明对上同时训练。
该模型的后半部分称为递归,因为它在随后的前向通过中生成其输出(单个词),其中每个前向通过的输入都包括前一个向前通过的输出。 正如我们在处理句子或一般而言使用序列时所期望的那样,这将使得下一个单词对较早生成的单词的依赖性。