【论文笔记】融合标签向量到BERT:对文本分类进行改进

2022-01-06  本文已影响0人  致Great

论文简介:融合标签嵌入到BERT:对文本分类进行有效改进
论文标题:Fusing Label Embedding into BERT: An Efficient Improvement for Text Classification
论文链接:https://aclanthology.org/2021.findings-acl.152.pdf
论文作者:{Yijin Xiong etc.}

论文摘要

随着BERT等预先训练模型获得越来越多的关注,从数据增强实验到改进模型数学原理,大量的研究已经进一步提高了它们的性能。在本文中,作者提出了一种简洁有效的方法,在保持几乎相同的计算成本的情况下,利用标签嵌入技术来提高BERT的文本分类性能。在6个文本分类基准数据集上的实验结果证明了其有效性。

论文简介

文本分类是自然语言处理(NLP)中的一个经典问题。任务是将预定义的类或多个类注释到给定的文本中,其中文本表示是一个重要的中间步骤。

为了学习更好的文本表示,已经开发了各种神经模型,包括卷积神经网络模型,循环神经网络模型和注意机制。预训练模型在文本分类方面也非常有利,因为它们通过避免从零开始来帮助简化训练过程。其中一组方法专注于单词嵌入,如word2vec和GloVe;另一种方法专注于上下文化单词嵌入,从CoVe到ELMo、OpenAI GPT、ULMFiT和BERT。

BERT在各种NLP任务中取得了特别令人印象深刻的表现。随着它的成功,通过对大量数据进行预训练的模型,如ERNIE、RoBERTa、UniLM和XLnet,由于其学习情境表示的能力而变得流行起来。这些模型基于多层双向注意机制,并通过MASK预测任务进行训练,这是BERT的两个核心部分。继续研究BERT的潜力仍然很重要,因为新的发现也可以帮助研究BERT的其他变体。在这项工作中,作者提出了一种简单而有效的方法来提高BERT的文本分类性能,通过类别标签的文本(如“世界”、“体育”、“商业”和“科学技术”)来增强上下文表示学习,同时不改变原始的编码器网络结构。本文的主要贡献如下:

模型算法

标签语义向量与Bert模型融合

图一展示了论文算法的大致结构,受句子对输入的启发,作者将标签文本与输入文本用[SEP]进行拼接,标签文本与输入文本用不同的片段向量(segment embeddings)表示。

后面同正常文本分类相同,通过整体[CLS] embedding,图片中为T_{[CLS]}接上tanh线性层进行分类,通过交叉熵损失训练。

举例:假设有三个类别---体育、美食、 人物。「马德里竞技」视角下这三类最后都是抽象的,为A/B/C,若训练时「体育美食人物+马德里竞技」--->体育,则模型能学习到「竞技」「体育」之间的关系,即利用label的文本信息。

除了单个文本输入之外,作者对于句子对输入没用用[SEP]字符拼接标签文本与输入文本,因为前后不是自然句,不像NSP任务,这种方式记为w/o[SEP]

使用tf-idf进一步优化标签文本

除了使用文档将标签的原始文本编码到BERT中外,作者还实验为每个类选择更多的单词作为代表,从而扩大了Lj中标记的数量。通过tfidf 标签文本增强来进一步提高我们的模型的性能。使用基于WordPiece的Bert Tokenizer来对文本进行分词,然后计算每个subword的平均tf-idf得分,最后将前5、10、15或20作为补充标签文本到相应的类。

论文实验

数据集设置


其中AGNEWS包含四种类别,DBpedia包含14种类别,在线infer的时候也要加上这些前缀,会带来一定开销,所以label也不宜多,性能折中。同时,过多的label引入,也可能带来分类效果的下降。

论文实验效果分析


可以明显的看到不对句子pair input作区分w/o [SEP]取得了更好的效果。NSP任务在Bert pretrain阶段是用于预测下一个句子的。当我们将标签序列与输入文档连接时,[SEP]标记将非自然语言序列与自然语言句子组合在一起。这种差异可能导致了前训练和BERT微调之间的偏斜度,导致性能下降。


接下来,作者使用t-SNE对学习到的文本表示进行二维可视化。如图所示,作者可视化了从YelpF.测试集的w/o[SEP]模型中学习到的向量。每种颜色代表一个不同的类。每两个点代表是T_{CLS}向量,每个点对应一个测试样本。带有黑圆圈的大点是T_{L_{j}}的平均向量,它是每个标签的编码嵌入。与[CLS]的嵌入相比,标签嵌入在向量空间中的分离性更强,这也是是标签嵌入可以支持分类的原因。

结论

上一篇 下一篇

猜你喜欢

热点阅读