论文阅读“ConSERT: A Contrastive Fram

2021-09-15  本文已影响0人  掉了西红柿皮_Kee

Yan Y, Li R, Wang S, et al. ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer[J]. arXiv preprint arXiv:2105.11741, 2021.

摘要粗读

学习高质量的句子表征有利于广泛的自然语言处理任务。虽然基于BERT的预训练语言模型在许多下游任务上都取得了很高的性能,但the native
derived sentence 的表示被证明是collapsed的,因此在语义文本相似性(STS)任务上产生了较差的性能。在本文中,我们提出了ConSERT,一个自监督的矩阵表示转移的对比框架,它采用对比学习,以无监督和有效的方式微调BERT。通过使用未标记的文本,ConSERT解决了BERT派生的句子表示法的崩溃问题,并使它们更适用于下游任务。实验结果展示了较好的实验性能。

In this paper, we present ConSERT, a Contrastive Framework for Self-Supervised SEntence Representation Transfer, that adopts contrastive learning to fine-tune BERT in an unsupervised and effective way.

论文贡献点
对比学习的相关工作

对比学习作为一项无监督任务中的技术。其主要的思想是:良好的表示应该能够识别同一物体,同时区别于其他物体。使用数据增强使得每个样本会产生不同的增强版本,并使得这些样本在表示空间中接近。这种方法可以看作是对输入样本的不变性建模。

ConSERT方法浅析

给定一个类似BERT的预训练语言模型M和一个从目标分布中提取的无监督数据集D,我们的目标是对D上的M进行微调,使句子表示更与任务相关,并适用于下游任务。

General Framework

模型包含3个主要的模块:
(1)首先是一个数据增强模块,它为输入样本生成不同的视图表示作为token embedding layer的输入。
(2)其次是一个共享的BERT编码器,用来计算每个输入文本的句子表示。在训练过程中,使用最后一层的token embedding的平均池化来获得句子表示。
(3)BERT编码器上的对比损失层。它最大限度地提高了同一个句子的表示与其对应的增强版本之间的一致性,同时保持它与同一batch中的其他句子表示的距离。

详细流程:(1)对于每个输入文本x,首先将其传递给数据增强模块,其中应用两个转换T_1T_2来生成两个版本的token embedding,分别表示为: e_i=T_1(x), e_j=T_2(x)。(2)然后,e_ie_j都将由BERT中的多层transformer块进行编码,并通过平均池化生成句子表示r_ir_j。(3)对于句子表示的输出对,模型采用了经典的 the normalized temperature-scaled cross-entropy loss (NT-Xent)作为对比学习的目标。在每个训练步骤中,从D中随机抽取N个文本,构建一个mini-batch进行处理,在增强后得到2N个文本句子表示。每个数据样本点需要从2(N-1)个负样本中找出自己对应的增强样本。

Data Augmentation Strategies
模型的数据增强模块使用了四种不同的策略,如下:
Incorporating Supervision Signals
除了无监督转移外,该方法也可以与监督学习相结合。以NLI数据集的监督任务为例:

当然没有使用标签信息的无监督方法可以很好的和监督目标相结合以很好的支持下游任务。作者在论文中也给出了不同的结合方式:

实验结果展示的分析

请注意,这里不考虑对抗性攻击策略,因为它需要额外的监督来生成对抗性样本。


该模型从结构设计上来讲,形式较为简单,但按照论文实验中所讲的一样,它以无监督的方法解决了句子表示在BERT中存在 collapsed的状况,以对比学习的方法探讨了再不增加标记数据的情况下如何对句子表示进行微调,没有额外的数据代价,并且展示出了良好的性能。
该论文中谈到了不同的数据增强的策略对性能的增强,具有很高的参考价值。并且继续思考对比学习在无监督多视图聚类中的扩展。https://github.com/yym6472/ConSERT.

上一篇 下一篇

猜你喜欢

热点阅读