论文阅读“TaCL: Improving BERT Pre-tr
2023-05-10 本文已影响0人
掉了西红柿皮_Kee
Su Y, Liu F, Meng Z, et al. TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning[C]//Findings of the Association for Computational Linguistics: NAACL 2022. 2022: 2497-2507.
总述
论文从大规模语言模型的预训练过程的优化角度出发,提出了一种新颖的连续预训练的方法来鼓励BERT等模型可以针对每个token都得到具有各向同性和鉴别性的分布表示。这种训练方法是完全无监督的,并且不需要额外的数据。
模型浅析
本文所提出的模型包含两个模型,一个学生模型
其中如果
通过完整的学习过程,可以继续在实验
实验部分让人影响深刻的是关于两种训练方式的自相关性的可视化结果,其中给定输入序列,其对应的表示序列为
,self-similarity的计算方式如下:
其中BERT表示适用原始的两种预训练任务MLM和NSP,TaCL表示适用了添加token级别的对比学习的晕训练过程。可以清楚的看出,提出的方法使得句子中的每个token更加具有各向同性和可辨别性。