Incorporating Copying Mechanism

2018-09-03  本文已影响0人  wizare

论文原文:Incorporating Copying Mechanism in Sequence-to-Sequence Learning

背景和动机:

1.    一些词语片段会在一些语言任务(对话、文本摘要)中重复出现

2.    人类对话中会有重复说词语片段的现象,即使自己不理解其语义。人类的本质是复读机

copy对话示例

Copy Mechanism (复制机制):

定义:定位到输入序列中的某个片段,然后将该片段拷贝到输出序列中。

作用: 现象中提到的复制需要绝对的精确性,而如果全部输出都是靠模型生成的话,精确度不够。而直接复制的话保证了信息的完整性。

模型:

原文模型图

提出名为 copynet 的模型,主体为seq2seq模型中的encoder-decoder结构。

Encoder:

双向rnn结构,输出隐藏层合成的矩阵到Decoder中。

Decoder:

个人理解的Decoder结构图

有3点特别之处:

1.    处理原句子的隐层状态时有两种做法: attentive read 和 selective read 。对应不同的机制,分别试图获取输入序列的语义信息和位置信息。

2.    隐状态更新:在状态更新中加入selective reading的结果

3.    预测输出: 输出有是个generate-modecopy-mode的混合模型, generate-mode是从预设词表中选词,copy-mode就是从输入序列中选词

个人看法:

我的复现地址

1.    在文本摘要任务能perform well ,不适合用于机器翻译 , 在对话系统中表现一般

2.    可以看作是attention的一种扩展。在有attention的网络中都可以尝试加入这个copy mechanism

3.    复读现象在实际运用中没有论文中提到的那么频繁,但用于捕捉人名,题目等实体词有奇效。

上一篇下一篇

猜你喜欢

热点阅读