2015 Teaching Machines to Read a

2018-12-14  本文已影响0人  Eukaring

2015 Teaching Machines to Read and Comprehend

摘要

教会机器阅读自然语言文档仍然是一个难以实现的挑战。机器阅读系统需要测试在它们看过的文档内容中回答问题的能力, 但目前这种能力验证缺少大规模训练和测试的数据集 (large scale training and test datasets) 。在这篇文章中,作者定义了一个新的方法,解决了上面提到的瓶颈和提供大规模有监督阅读理解数据。该数据集可以让作者开发基于 attention 的深度神经网络,通过学习阅读真实文档和使用最少的先验的语言结构知识来回答复杂的问题。

问题背景

构建用于阅读理解的有监督训练数据

如果把阅读理解任务作为一个监督学习问题,则需要试图去评估一个条件概率 (1)
p(a|c,q) \tag{1}
公式 (1) 中的 c 是一个上下文文档, q 是与 c 相关联的问题, a 是问题 q 的答案。
为了专注评估 (for a focused evaluation) ,作者希望能够排除附加的信息(即原数据没有提供的信息),例如:从共现统计 (co-occurrence statistic) 中获取的世界知识 (world knowledge) ,这样才能测试模型在检测和理解上下文文档中实体 (entities in the context document) 之间的语言关系的核心能力。
这种基于统计的方法需要大量的文档-问题-答案三元组的训练语料,但至今这种类型的语料只有几百个样本,而且大部分只被用作测试。 语料的限制意味着这个领域的大部分工作采用无监督方法的形式,使用模板、或者语法/语义分析从文档中提取关系三元组,形成可查询的知识图谱 (knowledge graph)。
因此,作者提出一种方法来创建真实世界的,大型的有监督训练数据,用于学习阅读理解模型。

  1. 语料生成:
    作者发现摘要和释义句子 (summary and paraphrase sentence),与它们相关联的文档 (associated documents) ,很容易使用简单的实体识别和匿名算法 (anonymisation algorithms) 转化为上下文-问题-答案 (context-query-answer) 三元组。通过使用这种方法,作者从 CNN 和 Daily Mail 网站收集到两个新的语料库,大约有1百万个新的带有问题的故事 (a million new stories with associated queries) 。

  2. 实体替换和排列
    该文章的重点在于提供一个语料可用于评估模型阅读和理解单个文档的能力,而不是世界知识 (world knowledge) 和共现统计 (co-occurrence) 。为了理解这种区别,作者以 Cloze 问题形式从 the Daily Mail 的验证集中举例说明。
    假设有以下三个问题, X 是需要模型预测的单词(答案):

    • The hi-tech bra that helps you beat breast X
    • Could Saccharin help beat X ?
    • Can fish oils help fight prostate X ?

    一个使用 the Daily mail 训练的 ngram 模型很容易预测出 X=cancer ,而没有考虑问题的上下文内容,因为在 the Daily Mail 语料中 cancer 是一个非常常见的实体 (a very frequently cured entity) 。
    为了解决上面的问题,作者通过以下步骤,匿名化 (anonymise) 和随机化 (randomise) 他们的语料:

    1. 使用指代系统在每个数据点中建立指代 (coreference)。
    2. 根据指代 (coreference) 使用抽象的实体标记 (abstract entity markers) 对语料中所有的实体进行替换。
    3. 每当一个数据点被加载时 (whenever a data point is loaded) ,就对这些实体标记进行随机排序。

    在通过匿名化设置后问题的回答需要上下文文档,然而原来的版本(没有经过匿名化等步骤处理)中可以通过某种必备的背景知识 (requisite background knowledge) 来回答问题。因此,通过上面的几个步骤,模型回答问题的唯一方法就是利用每个问题中的上下文信息。因此,模型在作者的两个语料 (the CNN and the Daily Mail) 上的性能表现可以真正地测试模型的阅读理解能力。

模型

作者使用一些 baselines , benchmarks 和新模型来评估他们构建的数据集。

Ⅰ 两个简单的 baselines

他们定义了两个简单的 baselines :

Ⅱ 符号匹配模型 (Symbolic Matching Models)

传统上,一系列的 NLP 模型 (a pipeline of NLP models) 已经被用于问答。这种模型大量地使用了语言注释 (linguistic annotation) , 结构化的世界知识 (structured world knowledge) ,语义解析 (semantic parsing) 和 相似的 NLP 管道输出 (NLP pipeline outputs) 。以这些方法作为基础,他们定义了一些以 NLP 为中心的模型 (NLP-centric models) 来用于机器阅读任务。

Ⅲ 神经网络模型 (Neural Network Models)

神经网络模型已经成功地被应用于NLP的一些任务中。其中包括了分类任务,例如:情感分析或词性标注 (POS tagging),还有像语言建模或者机器翻译的生成问题 (generative problems)。 作者提出了三个神经模型来估计上下文文档 d 中单词 a 回答问题 q 的概率。
p(a|d,q) \propto exp(W(a)g(d,q)), s.t. a \in V,

Ⅳ 实验结果

表2

Reference

  1. http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend.pdf
    "Teaching Machines to Read and Comprehend"
  2. https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41227.pdf
    "Frame-semantic parsing"
  3. http://www.aclweb.org/anthology/P14-1136
    "Semantic frame identification with distributed word representations"
  4. Alex Graves. Supervised Sequence Labelling with Recurrent Neural Networks, volume 385 of Studies in Computational Intelligence. Springer, 2012.
上一篇 下一篇

猜你喜欢

热点阅读