论文粗读“A Semi-Supervised Deep Clus

2022-11-17  本文已影响0人  掉了西红柿皮_Kee

Chen X, Beaver I. A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From Texts[J]. arXiv preprint arXiv:2202.00802, 2022.

摘要导读

从大量的自然语言输入中挖掘潜在的意图是帮助数据分析师设计和完善面向客户服务和销售支持的智能虚拟助理(IVAs)的关键步骤。为了帮助数据分析人员完成这项任务,本文创建了Verint意图管理器(VIM),这是一个结合了无监督和半监督的方法的分析平台,可以帮助分析人员从会话文本中快速表现出并组织相关的用户意图。基于对数据的初步探索,本文使用了一种新的无监督和半监督Pipeline,该Pipeline集成了高性能语言模型的微调、分布式kNN图构建方法和社区检测从文本中挖掘意图和主题的技术。对于预训练语言模型得微调步骤不仅是有益的,而且是必要的,因为当目标文本来自一个看不见的领域或聚类任务时,预先训练好的语言模型不能很好得对文本进行编码,以明显地表现出特定的聚类结构。为了提高灵活性,下游的聚类任务对应的提出了两种不同的聚类方法:一种是聚类的数量需要提前指定,另一种是自动检测到类簇的数量,但代价是花费额外的计算时间。该应用被设定为基于BERT的应用,在三个公开文本挖掘任务上展现出了很好的性能。

Pipeline

该Pipeline主要分为两个步骤:

  1. 对语言模型进行微调
  2. 使用微调过的语言模型对文本进行嵌入。然后对类簇数目是否已知进行判定,分别执行之后的聚类。

最终平台提供的聚类结果将呈现给分析人员,分析人员可以单击聚类的类簇来查看成员文本,并手动编辑类簇成员或启动子集群任务来创建意图层次结构。


提出的无监督和半监督文本聚类Pipeline是灵活的,并提供了最小的用户配置(是否指定集群的数量,提供是否进行微调的标记样本)的最佳结果。整体来说是个应用类型的论文,可能当时作者式按照Application Track的要求投稿的。让笔者看到了工业界常用的意图探索思路。
上一篇 下一篇

猜你喜欢

热点阅读