论文阅读“Improved Text Classificatio

2022-03-31  本文已影响0人  掉了西红柿皮_Kee

Pan, Lin, et al. "Improved Text Classification via Contrastive Adversarial Training." (AAAI 2022).

摘要导读

作者提出了一种简单而通用的方法来规范基于Transformer的编码器的文本分类任务。具体地说,在微调过程中,通过干扰模型的单词嵌入来生成对抗样本,并对原始clean和对抗noisy的例子进行对比学习,以促进模型学习噪声不变的表示。通过对原始的和对抗的例子使用额外的对比目标进行训练,提出的方法比标准的微调有一致的提高。

模型简记
首先给出的是标准的基于fine-tuning学习的Transformer-based的编码器文本分类任务。然后介绍提出的模型是如何产生对抗样本并且在对抗样本和原始的clean样本间使用对比学习提出了CAT模型。整体的模型图如下所示:

作者使用 Fast Gradient Sign Method,通过扰动编码器的词嵌入矩阵V来生成对抗性的例子。然后,对原始样本和扰动的例子进行交叉熵损失的训练。此外,我们引入对比损失,使原始样本和其相应的扰动例子的表示彼此接近,以便模型学习噪声不变的表示。


不同于现有的正负例构造中的数据生成,作者引入了干扰样本的形式取代了普通的数据增强策略。并且这种策略是对clean的word embedding layer进行不可逆的干扰(其中r是可以直接进行计算的,也不需要参与训练,无疑对大型的PLM来说是一个减负工作),使得生成的样本带有一定的噪声。有助于学习句子级别的噪声不变的表示。这种干扰样本生成的方式值得一看。整体模型的思想很简单,巧妙的避开了传统的数据增强,也使得模型更加适用于不同的分类任务。

上一篇 下一篇

猜你喜欢

热点阅读