Incorporating Copying Mechanism

2018-09-03 本文已影响0人 wizare

背景和动机：

1. 一些词语片段会在一些语言任务（对话、文本摘要）中重复出现

2. 人类对话中会有重复说词语片段的现象，即使自己不理解其语义。~~人类的本质是复读机~~

copy对话示例

定义：定位到输入序列中的某个片段，然后将该片段拷贝到输出序列中。

作用：现象中提到的复制需要绝对的精确性，而如果全部输出都是靠模型生成的话，精确度不够。而直接复制的话保证了信息的完整性。

原文模型图

提出名为 copynet 的模型，主体为seq2seq模型中的encoder-decoder结构。

双向rnn结构，输出隐藏层合成的矩阵到Decoder中。

个人理解的Decoder结构图

有3点特别之处：

1. 处理原句子的隐层状态时有两种做法： attentive read 和 selective read 。对应不同的机制，分别试图获取输入序列的语义信息和位置信息。

2. 隐状态更新：在状态更新中加入selective reading的结果

3. 预测输出: 输出有是个generate-mode和copy-mode的混合模型， generate-mode是从预设词表中选词，copy-mode就是从输入序列中选词

1. 在文本摘要任务能perform well ，不适合用于机器翻译，在对话系统中表现一般

2. 可以看作是attention的一种扩展。在有attention的网络中都可以尝试加入这个copy mechanism

3. 复读现象在实际运用中没有论文中提到的那么频繁，但用于捕捉人名，题目等实体词有奇效。