论文阅读“Contrastive author-aware te

2023-02-24 本文已影响0人掉了西红柿皮_Kee

Tang X, Dong C, Zhang W. Contrastive author-aware text clustering[J]. Pattern Recognition, 2022, 130: 108787.

摘要翻译

在User Generated Content (UGC)领域，作者 (IDs)是普遍存在的，并且在文本主题的类别划分中起着重要的作用。现有的文本聚类算法主要利用的是文本本身的信息，而作者在文本聚类的影响则没有被挖掘。为了减弱该问题，本文提出了Contrastive Author-aware的文本聚类方法-CAT。CAT不仅通过在特征表示文本中注入作者信息，还通过对比学习推动不同作者的文本表示的距离。具体来说，所提出的对比学习方法使用文本增强表示构造基于类簇的实例表示，从多视图的角度实现了实例与实例之间的对比。

以下是思路示意：

通常在文本聚类的过程中，主要关注的是文本的标题和正文两个视角，而文本对应的作者在文本主题的划分中也可以起到关键性作用。据作者统计，在不同的数据集中，作者对于主题的覆盖率只有很小的数值，如下图：

也就是说，根据作者，可以将文本对应的主题缩小到一个很小的范围；其次，在作者所覆盖的主题中，真正涉及到的主题将更少。因此，对作者信息的利用可以实现对文本聚类进行指导。

问题定义

在用户产生数据的场景中，给定文本数据 $\mathcal{D}=\{D_1, \cdots, D_{|\mathcal{D}|}\}$ 。给定文本由某用户 $u \in \mathcal{U}$ 产生的文本 $D$ 。 $\mathcal{U}=\{u_1, \cdots, u_{|\mathcal{U}|}\}$ 。假设 $D$ 由标题- $T=\{w_1,\cdots, w_{|T|}\}$ 和正文- $B=\{w_1,\cdots,w_{|B|}\}$ 。数据集中涉及到的所有词形成一个词表 $\mathcal{V}$ 。所提出的算法的目的是将这些文本分配到 $K$ 个类簇中， $K$ 是一个预先给定的类簇个数。

模型浅析

CAT的模型架构如下：

其中

t、b、u、d

分别表示标题、正文、作者和整体文本的表示。

C

表示类簇的嵌入矩阵。

k

是给定文档

d

的输出类标签，

\mathcal{L1、L2、L3}

分别对应于图中类簇实例对比损失、标题-文本和作者表示的对比损失以及标题和文本的对比损失。为简单起见，图中省略了对比学习中使用的负例文本。

Author-aware 文本表示
利用原始表示中的标题，正文和作者，构建每个文本的完整的表示。给定忽略下标的文本 $D=\{u, T, B\}$ ，首先为其元素（词：w和作者：u）构造类似lookUp table的矩阵：
$T, B$ 公用word 矩阵 $E^W \in \mathbb{R}^{Z\times|\mathcal{V}|}$ ， $E^U\in \mathbb{R}^{Z\times|\mathcal{U}|}$ 则是对应的作者embedding矩阵。 $Z$ 是embedding的维度。
使用Trainable Weighted Pooling (TWP)策略学习对应于 $D$ 的标题level和正文level表示。以学习标题level表示 $t$ 为例：其中 $\omega_i$ 为可训练的权重参数，并由IDF初始化。
由此，可以利用 $u,t,b$ 获取关于 $d$ 的表示：并且在系数的计算中引入了自注意力机制用于得到非负的系数： $W$ 为参数矩阵，q和k分别表示为如下：基于上述计算可以得到关于q和不同level表示的权重向量 $\gamma=[\gamma_1,\gamma_2,\gamma_3]$ ,以获得d的最终表示。
基于类簇的文本表示增强
为形成基于类簇实例的对比，构造了基于类簇embedding表示的文本增强方法。具体做法如下：首先定义可训练的类簇表示矩阵 $C \in \mathbb{R}^{Z \times K}$ 。然后，计算每个文本D属于类簇k的概率：
最后，利用概率和每个类簇的加权组合得到增强后的样本表示：
这种方式类似于，将一个文本表示分解为几个基础向量及其对应权重的加权表示。好像？可以和词的分解相结合？寻找上层语义？
对比学习的模型优化
在目标优化中主要涉及了三种类型的对比：类簇-实例对比损失 $\mathcal{L}_1$ ，实例-实例之间的对比损失author-text $\mathcal{L}_2$ ，以及标题-正文的对比损失 $\mathcal{L}_3$ 。

从对比的细节来看，分子为正例对的相似度计算，分母是两种类型的负例对计算。类似的，可以给出 $\mathcal{L}_2$ 和 $\mathcal{L}_3$ 的计算方式：最终，这三种类型的对比损失形成总的优化目标，以端到端的方式对模型进行优化：

这种方法类似于之前组里利用作者领域相关性提升聚类分析的工作。在本文中，作者巧妙的将其和对比学习结合，形成了不同类型的文本对比，这里关于词元素和作者元素的lookUp tables的设计使得作者元素也被映射到一个作者语义空间。虽然这里不会像预训练语言模型一样相同的词有不同的意义，比如一个作者可以钻研不同的领域，即在不同的文本下，虽然对应同一个作者但是其embedding表示不一样，但是这种lookUp的形式至少满足了将离散的变量转换到密集语义空间。相比于使用AE直接进行重构，学习作者的embedding表示，这种形式的学习貌似更加具有语义上的可解释性。后续的探索可以和语义到情感空间转化的方式结合起来，扩展对于非上下文文本的进一步探索。

论文阅读“Contrastive author-aware te

摘要翻译

问题定义

模型浅析

猜你喜欢

热点阅读