如何用NLP技术和标题党说拜拜👋-文本摘要

2018-12-24 本文已影响25人 gunjianpan

点这里排版好

拖延症拖了一个星期 🤦‍♀️
然后在查文献的时候发现中文的资料比较少于是

文本摘要 算是NLP领域一个还实用的细分领域吧

其实按我的理解 文本摘要 是一个披着NLP外衣的CV领域内容(至于为什么请dalao往下面看)

想想一下每每看见震惊公交车上🚍 有男子做出如此不堪的事这样的标题

可能不自觉的就脑补一些你以为会发生的事

结果点开链接发现这根本就不是你想想的那会事

然后你会痛骂一身标题党小gg 然后默默的关闭了网页

如果在你点开链接之前已经有一个整理好的概述这个时候是不是标题党就一目了然了

文本摘要解决的就是在大数据环境下如何利用NLP技术对文章进行概括

`feature` era

早在上世纪五十年代就有学者开始研究Text Summarization问题提出利用诸如词频首段首句标题等等一些特征值对文章进行自动化概括

本质上来说这些都是属于特征工程范畴的工作利用一些人类认知上的明显的特征关系找到文章与生成的摘要之间的匹配关系

当然可以想象到纯人力挖掘特征能达到的效果有限

但限于算力的制约一直到近年随着深度学习在ImageNet上崭露头角才稍有起色

image

`Extractive` Vs `Abstractive`

因为我们已经对NLP领域问题分析的套路已经有一些认识

以上的思路主要是从文本中原有信息根据人类普遍意识上的认识提取出对应于文章的一段文字这是一种Extractive方法

很容易想到除了抽取之外还可以通过对NN Output的参数进行 decoder操作进行Abstractive操作

生成式的思维其实更符合人类习惯但相对于现有的技术而言效果会比较差

之前我们在多轮检索式对话中分析的也是抽取式的模型

我们对检索式的大致套路已经有所了解

先对原有的文本做一个表示可以是word 粒度的也可以是上下文粒度的

在QA问题上从基于表示的思路变换到基于交互的思路

但 QA问题和摘要问题侧重点不太一样

QA 更能反映NLP问题的时序性对话中上一句接着下一句

在对话过程中 Topic很重要非停用词很重要语言风格也很重要但Topic可能变化语言风格也可能变化停用词也许会变成至关重要的

对话系统侧重抓取时序上的信息

而Text summarization这个问题中侧重于Topic的挖掘时序上的信息变得没那么重要

直观上感受文本挖掘只要从一篇已有的文章中从排好队的词阵列中抽取这篇文章最重要的词组成它的摘要

这一点就和图像识别很类似-从一张已有的图片中根据像素分布抽取出能代表周围一块区域的特征

所以目前 Text Summarization 领域中效果比较好的还是CNN与seq2seq结合的模型

（当然QA也一样会用到CNN 那里的CNN做的也同样是抽象的功能）

`Extractive`

抽取特征的思路可以分为抽取主题和抽取指示符

抽取主题方法, 比如说浅语义LSA、LDA 词频主题词贝叶斯 et al.
- 这种方法侧重于试图寻找语义上的主题
指示符(你可以粗暴的理解为特征):
- 比如说: 句子长的可能是更重要的在文档中位置靠前的可能更重要具有Title中某些词的句子可能更重要

Extrative 然后根据这些方法对每个句子进行一个评分的操作

然后一样的套路根据这个评分召回可能重要的k个句子

再对这k个句子做加工比如说贪心的认为@1的是这个文章的摘要也有模型针对最大化整体一致性及最小化冗余进行优化

除了抽取特征的思路之外还有基于知识库（对vertical domain 进行分析）

Topic Words

在Toipic word是的思路下有诸如

词频阈值: 词频超过一个阈值的情况下它就是主题词
主题签名词: 有些时候主题可以通过多种多样的词语表示每个主题签名词的词频并不一定高
- 通过建立对数似然估计检验来识别这些 主题签名词
- 可以是计算主题签名词数量的频次（偏向长句子）
- 也可以是计算主题签名词的占比句子中总词数的比例（偏向高主题词密度句）

Frequent-driven

词频方法较为简单主要是直接算词频或者利用Tf-Idf计算词频

Latent Semantic Analysis

浅语义主要就是做矩阵分解计算SVD 那么得到的中间矩阵就可以看作为原矩阵的Topic

当然 LSA之后还有基于Dirichlet分布的LDA

Graph Method

基于PageRank的思想把文章抽象为graph 其中句子代表graph中的节点边权值则为句子和句子之间的相似度

最简单的相似度的做法就是 Tf-idf

要想获得更好的效果可以尝试用一下QA中使用的基于基于交互、双向GRU、Transform等等办法

计算出各边值之后就按照PageRank的思路计算重要节点这些重要节点就是我们需要的摘要句子

讲到这里我们不难想到如何把之前多轮检索式对话系统中用到的计算context-reply之间关联度的方法用在这里

可能会有不错的效果但老年人不能安逸与现状对吧检索式我们做过了生成式还没有实践过 so 😭

Graph方法比较有名的比如说LexRank, TextRank

Mechanical Learning

本质上 抽取式文本摘要 也是一个分类问题把所有文本分类为是文本摘要和不是文本摘要的

分类问题就有很多操作的空间比如说用朴素贝叶斯决策树 SVM HMM

但样本集标注信息较难取得故有学者提出半监督的模型

通过同时训练两个分类器每次迭代时把具有最高分的未标记训练集扔到标记训练集中以此迭代

`Abstractive`

随着NN及seq2seq对机器翻译上表现出的显著提升

相应的技术也逐渐应用在Text Summarization领域上

实际上在文本摘要这个领域中很多技术是借鉴与机器翻译的

比如说受到NMT(Neural Machine Translation)中Attention和NN的应用的启发，有学者提出NNLM(Neural Network Language Model)结构

之后有人用RNN代替NNLM 比如说ABS什么的

在这样的模型中会出现几个问题

不能像抽取式一样获取到文本的重要消息
无法处理OOV(out-of-vocabulary)问题
- 当然我觉得OOV是预处理不好产生的问题
- OOV就是test dataset中存在train model建立的词表中没有的词
- 像这个问题可以简单粗暴的把OOV用零向量或者<UNK>代替丢到NN中训练
- 也可以用char-level粒度的模型
- 要么优化你的分词器
- 再有就是用FastText
然后还有一个比较关键的是词句重复
Seq2seq模型还会出现exposure bias和训练与预测结果不一致
- Exposure bias指的是训练时，输出是有真实的输入决定的; 而预测时，输出由前一个生成的输出决定的，这就导致因为生成的误差累计造成最后一层输出较大的偏差
- 训练和预测评价不一致是因为我们在评价这类问题使用的是不可微分的指标比如说ROUGH，而Loss函数用的是对数似然估计不一致。这个可以通过强化学习(RL)来缓解
- 有很多学者基于RL做了一些工作有不错的结果

我们知道在NLP中处理语句时序信息的分析常见的套路就是RNN系什么LSTM Bi-LSTM GRU Bi-GRU

但在数据量比较的大的时候比如说海量文本摘要分析这个问题上

RNN因为要前后迭代复杂度较大会出现梯度消失梯度爆炸💥的问题（其中有学者提出梯度范数裁剪解决这个问题）

因为Text Summarization 这个问题没有 QA那么强的时序性要求实验发现利用CNN也有较好的效果

在这种CNN-seq2seq模型中先用一个encoder的CNN把原文映射到Hidden层上去然后根据这个Hidden层输出的值再用一个decoder的CNN输出生成的摘要

image

ConvS2S

[Jonas Gehring et.al. ICML 17]

ConvS2S = Convolutional Sequence to Sequence Learning

这篇论文是Facebook工作很久的产物去年发出来和现在Bert差不多的效果

CNN相较于RNN而言可以并行而且不会出现梯度消失 可以更好的选取长距离的信息(这太像Transform了吧)

image

ConvS2S 采用的是带Attention的Encoder-decoder结构其中encoder和decoder用的是相同的卷积结构

~~(在ConvS2S上面我看到了Bert的影子)~~

首先 ConvS2S 采用了Transform 或者说Bert 中使用的Position Embedding 然后也是和Bert一样简单粗暴的把Position Embedding 和 word Embedding加和在一起

我们再来复习一下Bert 可以发现Bert的word Embedding比他好一丢丢(类似完形填空的深度双向Encoding) 除了上述两个Embedding之外还加了一个句粒度的负采样Segment Embedding

只不过在这里处理好的Embedding是丢到CNN中训练而不是丢到Attention中训练

在ConvS2S中除了传统的CNN之外还有一层 Multi-step Attention

这里的 Attention 权重是由当前层decoder输出和所有层 encoder加权决定的

这样使得模型在考虑下一个decoder的时候之前已经Attention过的词也能占到不少的权重

ConvS2S使用GLU做gate mechanism

然后 ConvS2S还进行了梯度裁剪权重初始值等优化使得模型很快很work

最后将decoder输出与encoder的输出做dot 构造对齐矩阵

Topic-ConvS2S

[Shashi Narayan et.al. EMNLP 18]

这篇文章是爱丁堡大学的dalao在今年EMNLP上发表的成果

之前我们做的Text Summarization多少都用到点抽取到的信息即使是生成式的任务

这篇文章想完成一个极端概括的任务把大段的文章用一句话概括

这个任务就和文章的Title 不一样 Title目的是让读者有兴趣去阅读这篇文章

而概括这是需要考虑到散布在文章各个区域的信息

Topic-ConvS2S主要的工作一个是建立XSum DataSet 然后就是把Topic 和ConvS2S结合在一起

模型利用LDA获取一层Topic Sensitive Embedding

$e_i=[(x_i+p_i);(t_i'$ ⊗ $t_D)]\in R^{f+f'}$

其中 $x_i$ 为word Embedding, $p_i$ 为Position Embedding, $t_i$ 为文档中单词的分布, $t_D$ 为文档中主题的分布

通过构造 $e_i$ 来获取关于Topic的Embedding信息

其他的和ConvS2S基本一致同样用到两个相同的encoder-decoder卷积结构同样是Mult-step Attention 连图都很像是吧

image

RLSeq2seq

[Yaser Keneshloo et.al. sCCL 18]

前面我们seq2seq的使用时会出现 Exposure Bias和训练与预测评价不一致的问题

强化学习就是来解决这个问题的一种方式

强化学习就是通过一些奖惩使得向某一目标学习以期习得针对任意给定状态的最佳行动

在本模型的奖惩就是当生成完整个句子之后通过ROUGE等评估方法得到的反馈

这样原来因为交叉熵计算出的Loss 与评价体系 Rough 不一致的问题就能够得到解决

image

Reinforced Topic-ConvS2S

[Li Wang et.al. IJCAL 18]

这篇是腾讯联合哥伦比亚、苏黎世联邦理工发布的基于Topic-ConvS2S的 Text Summarization论文

实际上你可以发现论文基本和前面的Topic-Convs2S 一致只是增加了RL的内容

~~目测应该是同期论文否则根本发布出去~~

虽然在Topic上面用的也是LDA 一样是在预处理阶段对Topic进行划分

但前面的Topic-ConvS2S是把原来的word Embedding和Topic获得的信息直接相加

在本文利用一个Joint Attention 再加上Bias Probability来实现与word Embedding的结合

之后在Loss函数的地方利用强化学习中self-critical sequence training (SCST)

使得不可微分的ROUGH指标最大化

在训练过程中根据输入序列X生成两个输出序列

我们先贪心地选择能使得输出概率分布最大的单词作为第一序列y1

再加上从分布中采样中生成的另一个输出序列y2

于是这两个序列获得的ROUGE分数则是强化学习的Bonus

CAS

[Angela Fan et.al., ACL 18]

CAS = Controllable Abstractive Summarization

这篇论文是之前facebook发ConvS2S 那个团队的后续工作

字面意思就是可控的生成式摘要

目前的文本摘要对于所有人显示的摘要一样

但其实这是很不友好的比如说一个吴亦凡和黄子韬两个人的新闻结果你只是吴亦凡的粉丝不想看到涛涛相关的内容

这个时候就需要能够控制Text Summarization长度内容的摘取

文章从下面几个角度对个性化进行研究

Length-Constrained
Entity-Centric
Source-Specific
Remainder

`Evaluation`

实际上文本摘要问题在模型效果判断上面较为难处理

目前来说 Rough 效果一般但总不能用人工评价吧

Rough是一个模型评价集合，其中

Rough-n 基于召回率的评估，预测结果与参考摘要之间的公共n-gram数/参考摘要内的n-gram数
Rough-L 基于最长公共子序列LCS 公共子序列越长 evaluation越高
Rough-SU 可不连续的bi-gram 和 uni-gram 相较于Rough-n 不要求gram连续

如何用NLP技术和标题党说拜拜👋-文本摘要

`feature` era