论文阅读“Contrastive author-aware te

2023-02-24  本文已影响0人  掉了西红柿皮_Kee

Tang X, Dong C, Zhang W. Contrastive author-aware text clustering[J]. Pattern Recognition, 2022, 130: 108787.

摘要翻译

在User Generated Content (UGC)领域,作者 (IDs)是普遍存在的,并且在文本主题的类别划分中起着重要的作用。现有的文本聚类算法主要利用的是文本本身的信息,而作者在文本聚类的影响则没有被挖掘。为了减弱该问题,本文提出了Contrastive Author-aware的文本聚类方法-CAT。CAT不仅通过在特征表示文本中注入作者信息,还通过对比学习推动不同作者的文本表示的距离。具体来说,所提出的对比学习方法使用文本增强表示构造基于类簇的实例表示,从多视图的角度实现了实例与实例之间的对比。

以下是思路示意: 通常在文本聚类的过程中,主要关注的是文本的标题和正文两个视角,而文本对应的作者在文本主题的划分中也可以起到关键性作用。据作者统计,在不同的数据集中,作者对于主题的覆盖率只有很小的数值,如下图: 也就是说,根据作者,可以将文本对应的主题缩小到一个很小的范围;其次,在作者所覆盖的主题中,真正涉及到的主题将更少。因此,对作者信息的利用可以实现对文本聚类进行指导。
问题定义

在用户产生数据的场景中,给定文本数据\mathcal{D}=\{D_1, \cdots, D_{|\mathcal{D}|}\}。给定文本由某用户u \in \mathcal{U}产生的文本D\mathcal{U}=\{u_1, \cdots, u_{|\mathcal{U}|}\}。假设D由标题-T=\{w_1,\cdots, w_{|T|}\}和正文-B=\{w_1,\cdots,w_{|B|}\}。数据集中涉及到的所有词形成一个词表\mathcal{V}。所提出的算法的目的是将这些文本分配到K个类簇中,K是一个预先给定的类簇个数。

模型浅析

CAT的模型架构如下:

其中t、b、u、d分别表示标题、正文、作者和整体文本的表示。C表示类簇的嵌入矩阵。k是给定文档d的输出类标签,\mathcal{L1、L2、L3}分别对应于图中类簇实例对比损失、标题-文本和作者表示的对比损失以及标题和文本的对比损失。为简单起见,图中省略了对比学习中使用的负例文本。

这种方法类似于之前组里利用作者领域相关性提升聚类分析的工作。在本文中,作者巧妙的将其和对比学习结合,形成了不同类型的文本对比,这里关于词元素和作者元素的lookUp tables的设计使得作者元素也被映射到一个作者语义空间。虽然这里不会像预训练语言模型一样相同的词有不同的意义,比如一个作者可以钻研不同的领域,即在不同的文本下,虽然对应同一个作者但是其embedding表示不一样,但是这种lookUp的形式至少满足了将离散的变量转换到密集语义空间。相比于使用AE直接进行重构,学习作者的embedding表示,这种形式的学习貌似更加具有语义上的可解释性。后续的探索可以和语义到情感空间转化的方式结合起来,扩展对于非上下文文本的进一步探索。

上一篇 下一篇

猜你喜欢

热点阅读