Text Clustering & BERT - Self-su

2022-09-01  本文已影响0人  掉了西红柿皮_Kee

emmm..这个系列可能会有好几篇文章吧,用来弥补对黑色九月的无知..

Shi H, Wang C. Self-supervised document clustering based on bert with data augment[J]. arXiv preprint arXiv:2011.08523, 2020.

摘要导读

作者指出对比学习作为一种效果很好且并不复杂的模型设计,很容易与深度模型进行结合。在本文中,基于BERT,分别提出了自监督对比学习(SCL)和使用无监督数据增强(UDA)的小样本(few-shot)对比学习(FCL)用于文本聚类。对短文本和长文本的聚类中,SCL实现了无监督方法中的SOTA;FCL的性能则接近于有监督方法。

主要贡献点
  1. 针对SCL,设计了multi-language back translation(BT,多语言回译)以及random mask(RM,随机掩码)来生成正例样本。
  2. 针对FCL,提出了无监督数据增强(UDA)。
模型框架

用于FCL和SCL的学习框架如下所示。

在每个mini-batch的学习中,(1)会选取产生m个文本对,每个文本对内被当作是正例样本,而文本对间则互为负例样本。(2)BERT将移除停用词的文本对作为输入,并将其转换为转换为隐含表示。笔者比较疑惑的一点是,在以字为输入的BERT中,其实停用词对于整个句子的embedding的影响不大。论文中这种直接去停用词的方式,是否会造成上下文语义的断层还有待考证。(3)BERT由基于隐含表示的对比学习损失进行回调。在完成了学习的迭代之后,将数据集中的所有样本输入微调好的编码器中获取对应的样本隐含表示,并使用k-means得到聚类结果。
首先给出笔者对该框架学习的伪代码理解:
given dataset, total_epochs and batch_size
for epoch in range(total_epochs):
    for batch in batches:
        training 
        # for scl & for fcl
obtain the fune-tuned Encoder
get the clustering results though the k-means

我的疑虑:
未进行消融实验,不能直接说明性能的提升来自哪个部分。


上一篇 下一篇

猜你喜欢

热点阅读