A Neural Attention Model for Sen

2018-03-16  本文已影响0人  KaelChen

Abstract

Introduction

Background

Model

模型融合了一个神经语言模型和一个encoder,其整体框架如下 模型整体框架

a. Neural Language Model

b. Encoders

如果没有encoder,这个模型只是一个依赖生成句子上下文的语言模型。通过encoder可以将输入x也编码进生成过程中,这样最终生成的概率同时包含了输入x和上下文yc的信息。

本文介绍了三种encoder

  1. 对上下文yc进行embedding,由于G是D*V维,所以embedding之后再Flatten的yc为CD*1维。
  2. 对输入x进行embedding,由于F是H*V维,所以embedding之后的x是H*M维。
  3. 矩阵P是输入x和上下文yc之间的一个软对齐,大小为H*(CD)维,因此p是M*1维的输出向量。这里重要的是对这个向量p的理解:向量p代表在当前上下文yc的情况下,生成下一个词语y(i+1)对输入x中各个词语的依赖概率,也就是注意力概率。
  4. 对embedding矩阵~x进行平滑(吐槽简书不支持Latex),具体做法是用一个大小为2Q+1的窗口对相邻词语向量求平均,实际上就是由2Q+1个词向量组成短语向量。
  5. 最终的输出enc(x, yc)代表对输入x和上下文yc进行结合的语义向量。(上下文yc按照不同的注意力概率对输入x中的各个短语向量进行加权求和)

c. Training

由于缺少生成约束条件,因此训练采用最小化负对数似然的方式来逼近最优解,优化算法采用mini-batch SGD。 负对数似然,总的输入-输出对为J个

Generating Summaries

Extension:Extractive Tuning

抽象式模型的一个缺点是对于源句子中的一些没见过的专有名词不能抽取出来。解决这个问题可以将Abstractive模型和Extractive模型的优点结合,即ABS+模型。
ABS+的优化目标是最小化负对数似然函数

NLL function
其中alpha是需要学习的权重向量,函数f是一个特征生成函数,最小化负对数似然等同于最大化打分函数 打分函数s
其中特征函数f的定义为 特征函数f
搞过机器学习项目的同学可能一看就明白了,这个实际上就是拿出ABS网络预测的结果作为一个feature,再结合一些人工拍的规则组合成一个5维的特征向量。打分函数s本质上就是对特征向量f进行线性回归得到的回归分数,如果设置α = (1, 0, . . . , 0),ABS+退化成ABS模型。文中介绍说这些人工拍的规则主要是提取输入x中的unigram、bigram和trigram特征。

Related Work

Experimental

主要是一些超参:

上一篇 下一篇

猜你喜欢

热点阅读