RoBERTa概述

2021-03-31  本文已影响0人  Jarkata

此文为转载,原文链接 https://wmathor.com/index.php/archives/1504/

RoBERTa 相较于 BERT 最大的改进有三点:

  1. 动态 Masking
  2. 取消 NSP (Next Sentence predict) 任务
  3. 扩大 Batch Size

静态 Masking vs 动态 Masking

取消NSP任务

其实到 2020 年了,很多论文早已不再使用 NSP 任务,但是 RoBERTa 算是比较早的一批质疑 NSP 任务的模型。RoBERTa 实验了 4 种方法:

扩大Batch Size/更多的训练数据/更长的训练时间

其实之前我看到过一个说法(源自 Chinese-BERT-wwm):降低 batch size 会显著降低实验效果

RoBERTa 论文作者也做过相关实验,采用大的 Batch Size 有助于提高性能

其中,bsz 是 Batch Size;steps 是训练步数(为了保证 bsz*steps 近似相同,所以大 bsz 必定对应小 steps);lr 是学习率;ppl 是困惑度,越小越好;最后两项是不同任务的准确率

上一篇 下一篇

猜你喜欢

热点阅读