LCQMC:A Large-scale Chinese Ques

2019-09-29  本文已影响0人  xiiatuuo

前记

该论文是哈工大发表的一个中文问答匹配数据集的论文,对于整个中文问答匹配的知识背景、方法、数据集构建方式等都有一些描述,该数据集被广泛应用在一些中文语义匹配的评测中,比如百度的simNet
链接LCQMC

摘要

LCQMC更多的关注在intent matching(意图匹配)而不是paraphrase(短语)方面。构建的方式是先针对不同的领域从百度问答中抽取高频的相关问题,然后通过Wasserstein distance进行初步筛选,最后人工进行标注。数据集一共有260068对标注结果,分为三部分,238766训练集、8802验证集和12500测试集。

相关的工作

Quora 和Microsoft都有相关的英文的语义匹配基础测试集,在它之上还构建了一些更垂直的集合

数据构建

评估和实验

讨论

抽样了1000条样本来观察,从关键词匹配、句子重叠和匹配类型来进行讨论

上一篇 下一篇

猜你喜欢

热点阅读