Text Clustering & BERT - The per

2022-09-03  本文已影响0人  掉了西红柿皮_Kee

emmm..这个系列可能会有好几篇文章吧,用来弥补对黑色九月的无知..(3)

Subakti A, Murfi H, Hariadi N. The performance of BERT as data representation of text clustering[J]. Journal of big Data, 2022, 9(1): 1-21.

摘要导读

文本聚类是将给定文本分组的任务,以使得同一组中的文本将比来自不同组的文本更相似。手动对文本进行分组的过程需要大量的时间和劳动力。因此,利用机器学习实现文本的自动化分组是必要的。在传统的机器学习聚类算法中,常用的文本表示方法是TFIDF,但是TFIDF忽略了词在句子中的位置和上下文信息。随着NLP领域的快速发展,BERT模型可以生成包含句子中单词的位置和上下文信息的文本表示。本文的主要研究就是展示BERT和不同的特征提取方式以及不同正则化方式对于文本聚类的影响。

方法浅析
该研究重在验证不同的特征提取方式和正则化方式对文本聚类性能的影响。其方法流程图如下:

其中,TFIDF作为常用的文本表示方法这里就不赘述。主要关注BERT在研究中的作用。

BERT model can be used with two approaches which are feature-based approach and fine-tuning-based
approach.

在本文中,作者将其看作是一个基于特征的模块,也就是说,BERT只用于产生文本表示而不对其进行微调。这里需要指出的是,作者选用的是第11层的输出作为文本表示。一个包含25个token的句子将会被编码为一个(25, 768)的向量。并利用不同类型的特征提取和正则化方式将其转换为(1, 768)的句子文本表示。

针对BERT的特征提取包含Max-pooling和Mean-pooling两种方式。
(1)Max-pooling:给定包含n个token的文本,每个tokeni都被表示为768维的向量:

d代表BERT输出的特征维度,一般为768。最终的文本表示k是一个d维的向量,其第k维表示为:
(2)Mean-pooling:将得到的n个token的表示进行平均,第k维表示为:
得到的输出将会被输入到特征的正则化模块(用于保证稳定的性能),正则化模块包含了4种不同的策略:
(1)Identity normalization:恒等正则,f(h)=h
(2)standard normalization:标准化,\tilde{h}=\frac{h}{||h||}
(3)Layer normalization:层正则,\tilde{h}=\frac{h-\phi}{\sigma}\phi\sigma分别是特征表示h的均值和标准差。
(4)min–max normalization:最大最小正则用于将特征表示h缩放到0-1的范围之内。

随后得到的h作为句子的最终表示用于聚类任务。本文的聚类任务主要包含两种传统方法和两种深度聚类方法,

分别在3个文本数据集上展示了TFIDF和BERT与不同策略的组合对应的聚类性能。 在实验部分值得注意的一点是,使用了不同的正则化策略之后,使得文本之间的差异性增大,显然对无监督聚类任务来说是很友善的。

这篇论文将BERT在下游任务中的角色划分为“基于特征”和“基于微调”的方法两种。目前看到的三篇文本聚类的论文中,都将BERT视为“基于特征”的方法。换句话说,BERT仅仅作为一个特征表示的工具参与文本表示的阶段,而且在文本表示的阶段也是只依赖于BERT在预训练阶段的预料,忽略了当前需要聚类的数据集的特有文本特征。

本文的突出点在于对不同特征抽取方式和归一化方式的组合学习。通过大量的实验说明不同的聚类方法依赖于不同的特征表示方式,同时不同的特征表示和聚类方法其性能的上限也是有差异的。

上一篇下一篇

猜你喜欢

热点阅读