论文精读-Denoising Distantly Supervi

2019-08-13 本文已影响0人 tianchen627

ACL2018
文章简介:
本文提出了一种基于远程监督的开放域问答系统(DS-QA,Distantly supervised open-domain question answering)。相比之前的模型这次在消除噪声上下了功夫，加入的段落选择器(paragraph selector)可以消除噪声数据，使其表现超过了所有baseline。

原文
 代码
 如何写作论文，作者以这篇作为模板讲解(尽管阅读的时候发现很多语病错误额)

1.Introduction

2.Related Work

3.Methodology

3.1ParagraphSelector

3.2ParagraphReader

3.3LearningandPrediction

4.Experiments

4.1Datasets and Evaluation Metrics

4.2Baselines

4.3Experimental Settings

4.4Effect of Different Paragraph Selectors

4.5Effect of Different Paragraph Readers

4.6Overall Results

4.7Paragraph Selector Performance Analysis

4.8Performance with different numbers of paragraphs

4.9Potential improvement

4.10Case Study

5.Conclusion and future work

1.Introduction

阅读理解作为NLP的一个焦点，(Chen et al., 2016; Dhingra et al., 2017a; Cui et al., 2017; Shen et al., 2017; Wang et al., 2017)这些文章利用了多层的结构在阅读理解中获得了不错的结果及注意力机制来解释问题。然而现有的阅读理解系统需要预先提供给系统相关文本，在现实应用场景中并不会这样。所以最近几年，研究者们试图用大规模的未标记语料来回答开放领域问题。 Chen et al. (2017) 提出了基于远程监督的开放域问答系统(DS-QA,Distantly supervised open-domain question answering)，这个技术利用了信息检索技术从维基百科获得相关文本，然后利用阅读理解技术提取答案。
这样的DS-QA系统容易受到噪声干扰(可以理解为我们人类做阅读理解时文本中的干扰语句)。所以本文提出模型的动机就是消除噪声。
文章提出模型如下:

coarse to fine 由粗到细

这个模型在Quasar-T, SearchQA,TriviaQA数据集上吊打全部baseline，同时模型可以更好地选择出有用(有助于提取答案)的段落，这可以加速整个DS-QA系统。

2.Related Work

开放领域问答在(Green Jr et al., 1961)被提出，开放领域的意思是问答不局限于专业领域，有基于文档的(Voorhees et al., 1999), 网页的(Kwok et al., 2001; Chen and Van Durme, 2017), 结构化知识图谱 (Berant et al., 2013a; Bordes et al., 2015) 或者自动抽取关系三元组 (Fader et al., 2014)，而最近的研究在于纯文本。Chen et al. (2017)提出的DS-QA系统从大量的语料中检索出相关文本然后利用阅读理解某些从这些文本中提取答案。
本文的模型从NLP中coarse to fine 由粗到细的一些模型获得灵感。 Cheng and Lapata (2016) and Choi et al. (2017) 提出的模型首选选出重要的句子然后再做文本概述和阅读理解，Lin et al. (2016)利用注意力机制聚集所有句子来抽取关系， Yang et al. (2016) 使用了单词级别和句子级别的注意力机制来做文档分类。

3.Methodology

本文的模型可以给定问题在大量的未标记语料中抽取出答案，结构可以见Introduction中的图片。

懒得自己敲了，模型参数
Paragraph Selector就是计算概率分布Pr(pi|q,P)，Paragraph Reader计算概率分布Pr(a|q,pi)，那最终模型可以表示为:

给定语料库P和问题q求答案a

3.1Paragraph Selector

Paragraph Encoding

将段落中所有单词使用词嵌入，随后将词向量丢入神经网络输出一个向量。这里神经网络的选择的由MLP(多层感知机)和双向单层LSTM。

Question Encoding

先是和Paragraph Encoding一样的流程输出向量，随后加上self-attention

self-attention操作一波是问题中每个单词的词向量，是将词向量输入神经网络后的输出，是段落中第j个单词Paragraph Encoding后的输出。
随后池化+softmax:

对应公式(1)
W是学习的参数。

3.2Paragraph Reader

从文本中抽取答案，模型的目标就是预测文本中答案的开始位置和结束位置，所以有:

和上面的方法类似

对于Pr(a|q,pi)如何取值，又有:

两种判定方式
(1)Max里认为只有一个标准答案即求最大概率，而(2)Sum里认为几种标准答案都有可能所以对概率求和。
本文中的Paragraph Reader是(Chen et al., 2016)提出的，事实上采用哪种Paragraph Reader都行，本文就用这种做实验。

3.3Learning and Prediction

损失函数

T是训练集，R(p)是正则化项，被定义为KL散度，见:

KL散度

分子是段落包含正确答案倒数的分布。
本文使用Adamax (Kingma and Ba, 2015)作为优化器。
测试时候的预测函数:

选出最大概率