AAAI 2019 | 采用聚类集束搜索机制的知识对话系统

2019-04-03 本文已影响0人 LC震荡电路

DSTC7 Track 2「Sentence Generation」任务要求基于 Fact 和对话历史自动生成回答。该任务它要求利用端到端的对话系统自动读取 Fact。这就像使对话系统具备阅读理解的能力，能够基于 Fact 产生正确的答案。文章《Cluster-based Beam Search for Pointer-Generator Chatbot Grounded by Knowledge》以pointer-generator为基础，在解码时采用了聚类集束搜索机制，提高了模型生成句子的丰富性，在DSTC7中拿下Sentence Generation任务冠军。

论文地址:

http://workshop.colips.org/dstc7/papers/03.pdf

引言

Pointer-Generator机制可以从历史会话和知识语料中直接提取有用的信息，该文采用这种方法在对话生成中解决OOV问题并进行知识提取。通过将聚类机制引入到beam search解码过程，提高了模型生成回复的丰富性，最后通过语言模型过滤掉在回复中经常出现但无意义的结果。

数据集

本文数据集为DSTC官方在reddit社区上抓取的300万对话问答，以及从 reddit 网页上相关的网页中提取的 2 亿个句子。经该文作者处理后，共组成1426601组对话的数据集，其中训练集大小为1408951，验证集大小4542，测试集大小为13108.每个句子的长度为8到20个token。

模型

整体架构

模型的整体架构如下图1，采用端到端的编码器解码器架构，编码器部分对对话中的Conversational history和Fact Extraction分别采用bi-LSTM模型编码。解码器部分在beam search时做K-means聚类处理，然后通过N-gram语言模型去除重复token，最后用N-gram Language Model过滤掉语义上无意义的safe response。