QANet

2018-08-19  本文已影响0人  zws2lll

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

论文地址:https://arxiv.org/abs/1804.09541

赵伟松,zws2lll@gmail.com,15652311958,北京,360

如有错误,请指正


1 Introduction

2 The Model

2.1 PROBLEM FORMULATION

本文中的阅读理解任务被以下形式定义:给定

输出C中一段子串,S={c_{i+1}, c_{i+2}, ..., c_{i+j}}。下文中x同时表示英文单词和其对应的词向量。

2.2 MODEL OVERVIEW

本文模型包括5部分,

这是主流阅读理解模型的架构。本文的模型与当下主流模型的不同之处在于: embedding层和模型编码层使用的是CNN和Attention机制。所以我们的模型运算更快而且可以并行处理。需要提及的是,虽然self-attention机制被广泛的应用在Vaswani et al. (2017a),但是CNN和selft-attention机制相结合的技术还是很前沿的。

具体讲讲模型的5个部分:

1. 输入Embedding层:
我们使用标准的技术,通过结合word embedding和character embedding获取最终的word embedding。

2. Embedding编码层:
编码层是若干个一下block的叠加。[convolution-layer × # + self-attention-layer + feed-forward-layer],如图1。

图1. one encoder block

我们使用depthwise separable convolutions(Chollet, 2016) (Kaiser et al., 2017) ,因为该网络具有更好的记忆和更好的生成能力(待看这两篇论文)。一个block有4层卷积,每层卷积128个filter,kernel是7*7。

self-attention-layer采用multi-head attention机制(Vaswani et al., 2017a)


未完待续

上一篇 下一篇

猜你喜欢

热点阅读