LCQMC：A Large-scale Chinese Ques

2019-09-29 本文已影响0人 xiiatuuo

前记

该论文是哈工大发表的一个中文问答匹配数据集的论文，对于整个中文问答匹配的知识背景、方法、数据集构建方式等都有一些描述，该数据集被广泛应用在一些中文语义匹配的评测中，比如百度的simNet
链接LCQMC

摘要

LCQMC更多的关注在intent matching（意图匹配）而不是paraphrase（短语）方面。构建的方式是先针对不同的领域从百度问答中抽取高频的相关问题，然后通过Wasserstein distance进行初步筛选，最后人工进行标注。数据集一共有260068对标注结果，分为三部分，238766训练集、8802验证集和12500测试集。

数据构建

召回：选取了百度问答教育、医疗等的不同领域，每个领域选择50个词作为初始，去查询top100页的结果作为初选。拿回来的数据再进行分词，tf-idf的计算，去查询权重较高的词的top50页的数据，最后生成了500w的初始pair对。
粗排：使用word mover distance（WMD）来进行初始的排查，最终得分0-0.15的太相似了，0.45-1分的基本不相关，所以从0.15-0.45分钟选择了10%来进行人工标注
标注：A paraphrase is a restatement of a text, passage giving the meaning in another form. Though the definition of matching in LCQMC is to some extent similar, it takes the intent of questions into consideration.paraphrase的典型代表是MSRA的数据集，而LCQMC要解决意图问题。标注者会标注三个等级，1，0和0.5。一些标注有歧义的会进行二次标注，需要打到2/3的通过率才算标注完。- - 校准：最终的人工标注数据中，正样本和负样本的比例是7：3，于是丢弃了一些质量低的正样本，同时采样了一些负样本基本上让比例保持1：1

数据集

评估和实验

评测指标选用了P、R、F1和Acc，评测方法选用了无监督方法和有监督方法。分词采用的jieba，计算距离用的是sklearn，
无监督方法包括词重叠、ngram重叠（n=4)、编辑距离、余弦相似度(if-idf)
有监督方法CBOW、CNN、BiLSTM、BiMPM，结果如下。

实验结果

讨论

抽样了1000条样本来观察，从关键词匹配、句子重叠和匹配类型来进行讨论

获取数据是用的关键词匹配来的，对于真实意图的分辨能力很差，所以只用来做初步的数据集构建
MSRP中平均lexical overlap是70%，LCQMC是75%。因为天然相同的事情就会是类似的词语，但是经过统计，LCQMC中低于50%重叠率的正样本大概占2.5%，对于重叠部分非常多但是意图不一样的问句其实很难识别（比如买火车票，从长沙到北京和从北京到长沙）
匹配类型有44%的比例是这五种：Intent-based（意图识别）、Elaboration（精炼）、Phrasal（习语转换）、Synonymy（同义）、Reordering（重组）

案例

LCQMC：A Large-scale Chinese Ques

前记

摘要

相关的工作

数据构建

评估和实验

讨论

猜你喜欢

热点阅读