用0.1%的额外计算超越缩放定律

2023-08-20 本文已影响0人 Valar_Morghulis

Transcending Scaling Laws with 0.1% Extra Compute

https://arxiv.org/abs/2210.11399

Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, Mostafa Dehghani

[Google]

摘要：缩放语言模型可以提高性能，但也会带来巨大的计算成本。本文提出了UL2R，这是一种通过相对少量的额外计算来显著改进现有语言模型及其缩放曲线的方法。关键思想是用UL2的混合去噪器目标在几个步骤上继续训练最先进的大型语言模型（例如，PaLM）。我们表明，在几乎可以忽略不计的额外计算成本和没有新的数据来源的情况下，我们能够在下游指标上显著改善大型语言模型的缩放特性。在本文中，我们继续用UL2R训练PaLM，介绍了一组8B、62B和540B规模的新模型，我们称之为UPaLM。令人印象深刻的是，在540B的规模下，我们展示了大约2倍的计算节省率，其中U-PaLM在大约一半的计算预算下实现了与最终PaLM 540B模型相同的性能（即，节省约440万TPU4小时）。

我们进一步表明，这种改进的缩放曲线会在具有挑战性的BIG Bench任务中产生“涌现能力”——例如，U-PaLM在某些任务中比PaLM做得更好，或者在更小的缩放范围内表现出更好的质量（62B，而不是540B）。总体而言，我们发现U-PaLM在许多few-shot设置上优于PaLM，即英语NLP任务（例如，常识推理、问答）、具有思维链的推理任务（例如GSM8K）、多语言任务（MGSM、TydiQA）、MMLU和具有挑战性的BIG Bench任务。最后，我们提供了定性实例，展示了U-PaLM在单跨和多跨填充中的新能力。

图1：计算（训练失败）与质量（附录7.1中列出的20+NLP零和few shot任务的平均值）。黑色虚线显示了从PaLM检查点初始化到使用UL2R进一步训练的路径。

1简介

人们对语言模型的缩放非常感兴趣（Rae等人，2021；Chowdhery等人，2022；Brown等人，2020）。缩放激发了多个领域的新研究，例如缩放律（Kaplan et al.，2020；Hoffmann等人，2022；Tay等人，2022a）、涌现能力（Wei et al.，2022a；Ganguli等人，2022）、推理能力（Wei等人，2022b；Lewkowycz等人，2022年）等。一般来说，当我们继续扩大计算预算（例如，更大的模型或更多的数据）时，缩放律预测语言模型质量的持续改进。到目前为止，构成缩放律研究基础的大多数大型语言模型几乎完全被训练为从左到右的因果语言模型（Kaplan等人，2020；Hoffmann等人，2022）。

本文提出了一种新的方法，可以在相对少量的额外计算成本的情况下显著改善大型语言模型对下游性能的缩放曲线。关键思想是继续训练现有的因果语言模型（Chowdhery等人，2022），并混合新的目标——特别是UL2训练目标混合物（Tay等人，2022b）。这种恢复预计只需原始训练FLOP的0.1%至1%左右，并且不需要新的数据源，因此非常高效和方便。我们称这种方法为UL2R或UL2Restore。

UL2目标结合了前缀语言建模和长短跨度破坏（例如，填充）任务（Raffel等人，2019），这些任务可以在推理时使用模式切换提示进行控制。用UL2训练一个大型语言模型可以被解释为教它利用双向注意力（即PrefixLM）或利用填充式预训练，这是语言理解的基础（例如T5（Raffel等人，2019））。为此，我们假设，为最先进的大型语言模型（如PaLM（Chowdhery et al.，2022））注入这些不同的预训练方案，作为对原始语言模型目标的补充，可以使模型表现得更好。此外，UL2目标在PaLM中启用了新的提示功能，使其能够执行基于填充的提示。

我们表明，将PaLM与UL2R相适应不仅会在已建立的few-shot NLP任务上产生明显更好的缩放律，而且，在我们对下游few-shot任务的缩放实验中，我们表明UL2R在540B尺度上的效率是原来的两倍（计算节省约2倍）-仅用一半的计算就达到了最终的PaLM 540B模型的性能，节省了多达440万TPU4小时。

除了在一系列公认的NLP（Wang等人，2019）、多语言（Clark等人，2020a；Shi等人，2022）和推理（Cobbe等人，2021）基准中的竞争表现外，我们还研究了UL2R对Wei等人的一系列具有挑战性的BigBench任务的影响。（2022a）。值得注意的是，一部分任务被描述为“涌现”任务，因为在62B的模型规模下，PaLM的性能保持不变，并且在540B的规模下只比非随机任务好。在这组任务中，我们发现UL2R能够（1）在PaLM难以完成的任务（例如，导航、几何形状、hyperbaton）上做得更好，以及（2）在较小规模上引发涌现行为，如62B或8B（例如，crass ai、Vitamic事实验证）。除此之外，U-PaLM在一些具有挑战性的BigBench任务上的表现远远优于PaLM。

在大型语言模型的背景下出现是一个新兴的研究领域。正如诺贝尔奖获得者物理学家菲利普·安德森所说，“越多就不同。”（Anderson，1972），描述了不同规模的不可预测现象。在我们的背景下，对于UL2中的混合名词，我们希望将这种现象视为“更多就是不同，但不同也可以更多”，因为不同的预训练目标可以提高语言模型质量或引发新的涌现能力。这项工作表明，多样性和更丰富的训练范式可能是学习新能力的关键，而这些能力以前仅靠因果语言建模很难获得。

最后，除了涌现任务性能和总体改进的缩放曲线外，我们还表明U-PaLM实际上更有用，因为它配备了辅助提示模式，即双向填充。具体地说，UL2R实现了提示U-PaLM的辅助功能，该功能可用于在输入提示中填写多个空格。有趣的是，我们发现只有少量的UL2R（例如，0.1%的token或FLOP）就足以为模型注入这种新功能。

2相关工作

大型语言模型扩展和改进大型语言模型是现代人工智能中最具影响力的研究领域之一（Chowdhery et al.，2022）。为此，大型语言模型不仅在数据或计算预算方面不断改进（Hoffmann et al.，2022；Kaplan et al.，2020），而且还获得了新的能力（Wei et al.，2022a）。大型语言模型的影响无处不在，在许多领域都取得了突破，例如推理（Wei等人，2022b；王等人，2022b；周等人，2022；Drozdov等人，2022）、数学（Lewkowycz等人，2022。虽然已经提出了许多范式和自监督方法来训练这些模型（Devlin等人，2018；Clark等人，2020b；Yang等人，2019；Raffel等人，2019），但迄今为止，大多数大型语言模型（即超过100B的参数）都被训练为仅限解码器的因果语言模型。例如，GPT-3（Brown et al.，2020）、Gopher（Rae et al.，2021）和PaLM（Chowdhery et al.，2022）等旗舰大型语言模型都被训练为因果语言模型。同时，双向模型（例如，BERT（Devlin et al.，2018）、T5（Raffel et al.，2019）、ST MoE（Zoph et al.，2022））作为所选择的goto模型也非常受欢迎，尤其是在较小的计算机制中（例如，小于30B的参数，并且经常在数亿参数的范围内）。

大型语言模型的缩放律

Kaplan等人（2020）研究了Transformer语言模型的缩放律，并首次表明缩放律可以预测未来的性能。作者发现，模型大小（而不是形状）与模型质量密切相关，即上游交叉熵。Tay等人（2021）研究了编码器-解码器模型的缩放特性及其对上游和下游微调任务的影响。总体而言，Tay等人（2021）发现上游困惑和下游质量并不总是相关的。作为后续研究，Tay等人（2022a）研究了不同模型架构的缩放律，发现归纳偏差确实会显著影响模型的缩放行为。最后，Hoffmann等人（2022）提出了计算优化模型，推广了“龙猫”缩放律，这种方法旨在预测给定模型参数数量的最佳数据量。在这项工作中，我们主要考虑下游性能的缩放律，主要是因为这更能反映语言模型的可用性。由于下游性能比上游交叉熵更重要，我们主张未来的缩放研究始终结合下游评估（和指标），而不是仅使用交叉熵损失。

涌现能力由于扩展语言模型而出现的新行为越来越多地被称为涌现能力（Steinhardt，2022；Ganguli等人，2022；Wei等人，2022a）。例如，Wei等人（2022a）将涌现能力定义为“不存在于较小模型中，但存在于较大模型中的能力”。对于few-shot提示的任务，这看起来像是一条平坦的缩放曲线（随机性能），直到达到某个临界阈值，在此期间，性能大大提高到随机以上。在BIG Bench基准中的数十项任务中都观察到了这种类型的现象（Srivastava等人，2022）。尽管这种涌现能力通常被视为规模的函数，但增加模型规模以诱导涌现能力在计算上是昂贵的。在本文中，我们展示了UL2R如何在不增加模型参数数量的情况下解锁涌现。

语言模型的继续训练

在更多的数据或任务上继续训练（或微调）语言模型的范式通常被称为适应。一系列先前的工作表明，在一组NLP任务上微调语言模型可以提高广泛下游任务的下游性能（Aghajanyan等人，2021；Aribandi等人，2022；Wei等人，2021年；Sanh等人，2022年；欧阳等人，2022等）。然而，大多数先前的工作需要额外的数据，例如聚合数十或数百个NLP数据集（Raffel et al.，2019；Aghajanyan等人，2021；Aribandi等人，2022），编写额外的指令模板（Wei et al.，2021；Sanh等人，2022。UL2R不需要新的数据，因为它只是重新使用预训练数据，这使得它与利用大量NLP数据集的连续训练方法正交。已经探索了将预训练的语言模型与新的自监督目标相适应。例如，用语言建模目标训练的模型可以通过用掩码的语言建模目标进行进一步训练来适应（Wang等人，2022a）。另一个方向也是可能的；用掩码语言目标训练的模型可以与因果语言建模目标相适应（Wang等人，2022a；Lester等人，2021）。UL2R遵循了类似的想法，但即使在经过大量的标准预训练后，它也从不同的名字中提取了一组不同的、新的预定任务，并展示了对各种设置和任务的快速改进。

统一语言学习者（UL2）

UL2（Tay等人，2022b）模型是一个最先进的模型，它连接了生成因果语言模型和双向语言模型。UL2提出了一种混合的去噪器目标，该目标在同一模型内混合前缀（非因果）语言建模和填充（跨度破坏），并利用模式提示在下游任务期间在模式之间切换。UL2与体系结构无关，作者认为仅选择解码器与编码器-解码器模型在很大程度上是一种效率权衡。在（Tay等人，2022b）中，最终的UL2模型被训练为20B编码器-解码器模型，它在微调和上下文学习方面都取得了非常令人信服的性能。

3 U-PaLM

本节介绍U-PaLM（即PaLM+UL2R）的技术细节。U-PaLM是从PaLM初始化的，并利用相同的体系结构。本节介绍了UL2R的训练程序，以及如何将其应用于继续训练PaLM。

3.1训练数据

为了保持一致，我们使用与PaLM相同的数据混合来训练该模型，并且不依赖于额外的数据源（token或未token）。

做出这种选择主要有三个原因。首先，我们不想在训练过程中引入新的token，因为这可能会混淆研究结果。其次，我们不想对只测量对上游交叉熵影响的标度研究进行过度索引（Hernandez et al.，2022），该研究声称，少量重复数据可能会造成不成比例的危害。由于我们获得的经验结果是强有力的，我们假设重复token在较小的数量下可能不会有害。这也得到了PaLM 62B在（Chowdhery et al.，2022）中的持续训练的支持，该训练表明，重复的数据可能会带来小的收益，尽管不如新的token那么强大。第三，我们认为我们对训练数据的数据转换（通过UL2）是足够独特的，因此防止我们在具有确切目标的相同数据上进行明确训练，或者避免任何记忆问题。

3.2前缀语言模型体系结构

我们使用前缀语言模型（PrefixLM）架构来训练U-PaLM，有时也称为非因果解码器专用模型。PrefixLM体系结构在其前缀（或输入）中保留非因果掩码，并对输入tokens施加双向关注。

在该架构中，我们使用2048的总组合序列长度（例如，PaLM的序列长度），然后将其拆分为1024个输入和1024个目标。在最初的UL2论文和基础设施中，其预处理管道的工件在组合输入和目标之前首先应用填充tokens。对于仅限解码器的语言模型，这是低效的，因为我们最终会得到[prefix][prefix's padding][target]的级联。

在这项工作中，我们通过强制模型在应用任何额外的填充之前连接前缀和目标来优化前缀填充。在前缀与目标连接之后，随后应用打包、修剪和填充。通过这种前缀优化，我们能够提高模型的示例级样本效率。

3.3损失目标

本节介绍我们在UL2R中使用的UL2混合除臭剂的设置。UL2混合去噪物镜包括三种类型的去噪器。

•定期去噪，将噪声采样为跨度，用哨点token替换。这也是Raffel等人（2019）中使用的标准跨度损坏任务。跨度通常是均匀采样的，平均值为3，损坏率为15%。

•极端去噪，即噪声在原始文本中的比例很大或本质上很长，从而增加到相对“极端”的数量。跨度通常以32的平均长度或高达50%的损坏率进行均匀采样。

•顺序去噪，即始终从文本开始到文本中的随机采样点对噪声进行采样。这也被称为PrefixLM目标（不要与体系结构混淆）。

由于Tay等人（2022b）已经探索了许多消融，因此我们保持了这一简单性。我们保留了最初的7个去噪器作为初始版本，但后来发现，只有三个任务的混合，例如50%的PrefixLM、25%的长（极端）跨度损坏和25%的常规跨度损坏，对于继续训练的设置来说是非常简单和有效的。我们在最初的UL2设计中保留了原始的模式提示tokens。我们将[S2S]用于S-去噪器（PrefixLM），将[NLU]用于R-去噪器，将[NLG]用于X-去噪器。540B U-PaLM模型主要使用50%的S-去噪器（PrefixLM）、25%的R-去噪器和25%的X-去噪器进行训练。

3.4训练

我们对540B模型进行了总共20k步的训练，批量大小为32。在62B和8B模型的早期实验中，我们对这些设置进行了轻度消融，但将其限制在一定的范围内（例如，50k步的128个批次）。因此，与完全预训练相比，这更类似于“微调”。因此，与最初的预训练运行相比，额外tokens的数量可以忽略不计，通常额外计算量约为或小于0.1%。我们为540B模型训练的额外token总数约为13亿，占额外计算的0.16%。我们使用余弦学习率衰减计划，将学习率从10−4退火到10−6。值得注意的是，我们还尝试了低恒定学习率，发现它们的表现完全相同。我们的U-PaLM 8B和62B型号使用64个TPU4芯片进行训练。U-PaLM 540B型号的训练只消耗512个TPU4芯片，并且在大约5天内完成，这被认为是轻量级的。

4实验

本节报告U-PaLM的实验结果。

4.1改进的few-shot学习缩放特性

在这个实验中，我们展示了在PaLM 8B和PaLM 540B之上进行少量UL2R训练的改进的缩放曲线。我们使用下游指标和few-shot评估，因为（1）这更接近这些模型的可用性，以及（2）UL2和因果语言建模的损失是不可比较的。我们使用不同的PaLM中间检查点初始化并训练了多个U-PaLM模型。在8B模型上，我们以不同的间隔重复了7次。考虑到540B模型对计算的要求更高，我们只拟合了3点。为了进行评估，我们使用GPT-3套件中NLU和NLG任务的平均分数（Brown等人，2020）。我们总共使用了26个任务（例如，TriviaQA、NaturalQuestions、SuperGLUE、PIQA、OpenbookQA、ANLI等）。图2的详细信息和准确分数可在附录中找到。

图2显示，U-PaLM在8B尺度和540B尺度上都大大优于原始PaLM模型。注意，虚线表示UL2R训练前后的路径，我们表明UL2R训练显著改善了PaLM的缩放曲线，即，与使用标准因果语言建模目标更长时间地训练原始PaLM模型相比，UL2R提供了更有效的计算性能改进。

8B与540B

一般来说，UL2R持续改善了基础的PaLM模型。然而，我们在8B和540B模型上观察到了不同的行为。随着PaLM 8B的表现开始趋于平稳，差距似乎缩小了，即最大的增益接近训练中期。至于540B，即使在780Btoken的情况下，收益仍在继续增长。我们认为，这是由于PaLM 540B在780Btoken之外仍有很大的净空。

储蓄率

在训练的某个阶段，我们可以选择使用标准因果语言建模目标或对少量步骤应用UL2R来继续训练K个步骤。在这里，我们讨论了选择UL2R而不是使用因果语言建模继续训练的反事实节省率。对于540B型号，中间检查点的节省率约为2倍。这相当于540B型号的约440万TPU4小时。对于8B模型，在模型开始和收敛时，储蓄率往往最低。它似乎在训练的中期阶段更高（相对于收敛），这表明UL2R的效用随着已经完成的因果语言建模训练的数量而变化。对于540B模型，由于PaLM模型没有经过收敛训练，并且tokens数量与参数的比率相对较低，因此节省率仍可能增加，甚至超过2.35倍。总体而言，节省的数量与模型的训练点和收敛阶段成正比，并且可能可以通过标准缩放律进行预测（Kaplan等人，2020；Hoffmann等人，2022）。

单个任务的细分

图3报告了混合物中每个零次和一次shot任务的个人得分。我们发现U-PaLM 540B在26个任务中的21个任务上优于PaLM 540B。鉴于PaLM是这些任务的SOTA语言模型，这使得U-PaLM成为这些任务的最新技术。

图3：针对780Btoken训练的PaLM和U-PaLM 540B的单个零样本和单次NLP任务的分解分数。U-PaLM的性能优于PaLM 540B，在26项任务中有21项任务实现了SOTA。

4.2 BigBench急救套房

表1:BigBench涌现套件（BBES）中具有挑战性的任务列表以及PaLM 540B和U-PaLM 540B的相应分数。所有结果均采用标准的5点提示进行报告。

我们从BigBench中选择了一组具有挑战性的任务，基于这样一个标准，即PaLM在这些任务上的性能在8B和62B级别上保持相对平稳，但在540B级别上突然解锁。我们还考虑了PaLM 540B难以解决的任务（接近随机性能）。受Wei等人（2022a）制定的标准的启发，我们将这些任务集称为BigBench任务的涌现任务集（BBES）。请注意，虽然这组任务重叠，但与BBH并不完全相同（Suzgun等人，2022）。此外，BBES使用默认提示和模板作为BIG Bench，而不使用思想链提示。因此，它们并非完全可比。BBH结果见第4.3.3节。

4.2.1 BIG试验台结果

表1报告了BigBench涌现套件上的PaLM 540B和U-PaLM 540B的结果。我们还描述了每个任务的任务和推理任务。请注意，有些任务需要结合各种“技能”才能擅长。例如，导航任务是空间推理和算术（计数）的结合。

总体结果和比例图

我们观察到U-PaLM在540B规模的21项任务中有19项优于PaLM。此外，在某些任务上的收益是巨大的（例如，55.3%→ 67.0%）和69.1%→ 86.1%的snarks）。平均而言，在所有21个任务中，在未归一化的聚合平均值上有+5.4%的相对质量增益，我们认为这是非常好的结果。图4显示了U-PaLM相对于其他模型的比例图。只要可能，我们还包括官方BIG Bench存储库中的GPT-3或Gopher等基线。

UL2R在较小规模上解锁涌现任务性能

规模（例如，扩展到540B）是导致涌现任务性能的一个因素（Wei et al.，2022a）。我们发现UL2R能够在较小的范围内引发涌现能力。例如，某些任务的质量，如crass_ai、vitaminc、identify_oodd_metaphors，是性能开始在62B级别上飙升的任务（而PaLM模型仅在540B级别）。在极少数情况下，U-PaLM 8B的性能甚至高于PaLM 62B（例如，snarks、understanding_ables）。总的来说，这些结果表明，有强有力的证据表明，在揭示大型语言模型中的新能力时，归纳偏见（例如，前缀语言建模的组合、UL2中基于跨度损坏的预训练）可能是至关重要的。

4.2.2在BIG工作台上分析个人任务表现

本节深入探讨单个任务的性能，并试图了解不同类型的BIG Bench任务的质量。

空间或视觉推理任务

U-PaLM做得非常好的第一类任务是需要某种形式的空间或视觉推理的任务（例如，导航或几何图形）。在这两项任务中，U-PaLM 8B的性能都优于PaLM 540B。我们假设这是由于前缀语言模型架构和U-PaLM所经历的额外PrefixLM训练。为了更好地说明问题，请考虑这些任务中的以下示例。

•在导航任务中，示例如下：“向右转弯。迈出1步。右转采取6个步骤。右转迈出1步。右转采取两个步骤。采取4个步骤并且该任务是确定代理是否返回到起始点的二进制分类任务。

•在几何图形任务中，目标是预测给定SVG路径的形状，例如，给定“M 31,29 L 34,76 L 82,16 L 31,29”，模型应预测三角形。

这里，值得注意的是，通过双向注意力和使用类似PrefixLM的目标进行训练，可以直观地改进这两项任务。这可以解释为什么U-PaLM即使在8B时也能优于PaLM 540B，因为它被赋予了正确的电感偏置。

图4：作为训练FLOP的函数，不同大小的PaLM、U-PaLM、Gopher和GPT-3的BIG Bench涌现套件（BBES）的标度图。分数是标准化的分数，其中零表示或多或少的随机表现。X轴为对数刻度。

常识和知识任务

21项任务中有相当一部分需要某种形式的常识或基于语言的知识才能做好。值得注意的是，U-PaLM不使用任何新的唯一tokens（或新数据）进行训练，因此，与普通的PaLM相比，它无法获得任何新的“知识”。因此，与更依赖算法或其他类型推理的任务相比，这里的收益预计会更温和。然而，我们在某些任务中观察到一些相对较小的增益（例如，understanding_ables或movie_dialog_same_or_different）。在这类任务中，有一个例外是snarks任务，它涉及检测自然语言中的讽刺。值得注意的是，U-PaLM表现不如PaLM的21项任务中，只有2项属于这一类（例如，logical_sequence和english_provers）。我们认为这是合理的，因为我们并不完全期望UL2R总是改进这类任务，因为它实际上并不处理新的数据tokens。

语境推理或阅读理解任务

有些任务需要对上下文有一定的理解，然后要求语言模型根据上下文回答问题。Vitamic_fact_verficiation任务就是一个例子，它试图在给定外部证据（上下文）的情况下确定索赔的真实性。另一个例子是understanding_ables任务，其目标是在给定的上下文（段落或故事）中确定“故事的士气”。值得注意的是，U-PaLM在这两项任务中以62B的规模出现，尽管最终的540B模型性能相对相似。我们假设这是由于PrefixLM的架构（和预训练）优势，它有助于模型在更小的规模下表现得更好。直觉上，能够用上下文（前缀）进行双向推理在上下文推理任务中可能很重要。

多步骤推理、类比推理和算术任务

我们观察到，在540B量表下，类比推理任务（例如，类比相似性）或多步骤推理任务（策略qa）的性能有所提高。然而，与上下文推理任务不同，这类任务的性能往往遵循类似的缩放模式，尽管性能稍好。例如，基于图4，我们注意到strategyqa遵循与PaLM相对相似的缩放曲线。

4.3零样本和Few-shot NLP

在本节中，我们将评估我们在各种成熟的NLP任务上的模型。这些任务测试U-PaLM的零次和few shot能力。

4.3.1常识推理

我们在四个零样本常识推理基准上进行了实验。具体而言，在以下（Hoffmann等人，2022）中，我们使用了BoolQ（Clark等人，2019）、PIQA（Bisk等人，2020）、HellaSWAG（Zellers等人，2019。除了我们用于与U-PaLM直接比较的PaLM 62B和PaLM 540B外，我们还与Chinchilla 70B（Hoffmann等人，2022）和Gopher 280B（Rae等人，2021）进行了比较。表2报告了零样本常识推理的结果。

我们发现U-PaLM 540B在所有四项任务上都优于PaLM 540B，平均相对改进率为（+1.4%），并在所有模型中获得最佳性能。

4.3.2问答与阅读理解

我们评估了零样本和少热点闭书问答（CBQA）任务（Kwiatkowski et al.，2019；Joshi et al.，2017；Roberts et al.，2020）以及零样本Lambada阅读理解任务（Paperno et al.，2016）。表3报告了我们的实验结果。我们与PaLM 62B、PaLM 540B、Chinchilla 70B和Gopher 280B进行了比较。

总体而言，在few-shotCBQA和阅读理解方面，我们观察到U-PaLM 540B在few-shot自然问题上平均优于PaLM 540B+2.3%，高达+111.4%。同时，62B级别的增益也很强（即，平均+2.1%）。

4.3.3推理与思维链实验

我们在推理和CoT方面进行了实验，并将U-PaLM 540B与PaLM540B和Minerva 540B进行了比较。我们使用GSM8K（Cobbe et al.，2021）、BBH（Suzgun et al.，2022）、StrategyQA（Geva等人，2021）和CommonsenseQA（Talmor等人，2019）基准。所有任务都是在思想链（CoT）提示下运行的。

表4报告了推理和CoT基准的结果。U-PaLM 540B的性能优于PaLM 540A和Minverva 540B。值得注意的是，GSM8K和BBH的涨幅相对较强。这表明U-PaLM在推理方面做得很好，非常适合于思想链推理。

4.3.4多语言few-shot推理和问答任务

我们对few-shot多语言推理和问答任务进行了实验。我们使用（Shi et al.，2022）中提出的MGSM（多语言小学数学）基准。对于多语言问答，我们使用公认的TydiQA（Clark et al.，2020a）基准。在我们的实验中，PaLM 540B和U-PaLM 540B都使用思维链提示（Wei et al.，2022b）。

4.3.5大规模多任务语言理解

我们在大规模多任务语言理解（MMLU）基准上比较了PaLM和U-PaLM（Hendrycks et al.，2020）。表6报告了我们对MMLU测试集的结果。先前的结果来自（Hoffmann等人，2022）。我们的结果表明，U-PaLM在该任务上以2.0%的相对增益优于PaLM。

4.4微调

我们对SuperGLUE（Wang等人，2019）和TydiQA（Clark等人，2020a）进行了微调实验。我们以8B和62B的比例1进行实验。以恒定的学习速率对批量大小为32的100k步进行微调。

表7报告了微调结果。我们观察到，在微调方面有了实质性的改进，尤其是在8B级别。收益在62B的规模上略有下降，但总体上仍然温和。我们注意到，通常可以认为PaLM的微调性能弱于预期。例如，在SuperGLUE开发平均值上，PaLM 8B通常优于T5大型模型。我们假设，在UL2和跨度损坏任务上训练PaLM，作为因果语言建模的补充，可以改善其一些缺陷。我们的结果证实了这一点，表明U-PaLM显著提高了质量，尤其是在较小的（8B）尺度下。

5定性分析：新的提示能力

除了改善PaLM的缩放行为外，我们发现在UL2R中应用的少量持续训练足以为PaLM注入UL2目标引入的新提示能力。也就是说，在UL2中使用去噪允许PaLM获得填充能力。填充允许U-PaLM有第二种方法来处理提示，我们认为这非常有用。此外，通过U-PaLM，我们还可以提供模式tokens，以获得特定的预训练目标。这为我们提供了一个强大的工具来控制模型，而无需对模型或其推理进行任何更新。在本节中，我们提供了一些U-PaLM扩展的提示功能被证明是有用的情况示例。

5.1填充能力

从左到右的因果语言模型预训练通常允许模型提供有意义的提示延续。使用U-PaLM，我们观察到，通过使用少量UL2去噪步骤扩展预训练，该模型还能够获得填充能力——在提示中间给模型一个位置来填充。值得注意的是，使用U-PaLM，可以通过使用额外的IDtokens（在去噪中使用）或不使用来查询填充样式和传统样式，分别地

在图5中，我们包括了PaLM、具有传统提示的U-PaLM以及具有填充提示的U-PaLM的示例输出。我们用两种方式表达这个特定的提示：一种是适合通过PaLM进行传统提示的问题，另一种是利用U-PaLM的填充功能。在传统的措辞中，PaLM和U-PaLM都不会产生正确的答案。对于填充语句，PaLM忽略填充tokens（额外IDtokens），因为PaLM在训练期间没有看到它，而是在步骤4之后生成其余步骤。U-PaLM正确填充了本例中的第二个步骤。最后，包括第三个示例来演示U-PaLM填充多个插槽的能力。这些例子表明，只需少量的额外训练，我们就可以扩展PaLM的功能，为一类全新的查询提供服务。

5.2利用特定的预训练模式

回想一下，通过UL2目标，R-、X-和S-去噪器分别与[NLU]、[NLG]和[S2S]模式token相关联。S-去噪器本质上是PrefixLM目标，而R-和X-去噪器是跨度损坏的变体，因此也与额外的IDtokens相关，我们可以在提示填充时使用这些tokens（如上所示）。给定这种独特的设置，我们可以控制推理过程中的模式tokens，以访问可能在一种模式下而不是在另一种模式中获取的特定知识。这有效地为我们提供了更多关于如何回答提示的选择，而无需对学习的模型或其推理算法进行任何更改。

在图6中，我们包含了一个具有挑战性的示例，其中我们要求模型从英语问题到越南语问题进行零样本跨语言问答。对于PaLM和U-PaLM默认值，我们按原样将输入传递给模型。对于其余部分，我们将[S2S]、[NLU]或[NLG]中的一个前置到输入的开头，在[NLU]和[NLG]的情况下，我们在输入的末尾添加填充token，这是这些模式的典型情况。有趣的是，[S2S]模式下的U-PaLM是唯一一个在越南语中返回正确答案的变体。常规的PaLM产生正确的答案，但忽略越南人的请求，而具有默认提示（无模式，无填充）的U-PaLM产生大致正确的答案但可能更具体（“xanh”包括绿色和蓝色）。这个例子展示了访问特定模式tokens如何在某些提示下比其他提示更有效，为我们提供了一种强大的技术来提供更多种类的提示。

5.3改进开放式发电的多样性

即使[NLU]和[NLG]模式在跨度损坏的预训练过程中通常重合（涉及额外的IDtokens，填充），我们仍然可以使用完全没有填充的[NLU]或[NLG]方式tokens。类似地，我们可以使用填充，但不使用模式token。提示U-PaLM的多种方法产生了一种有用的技术，可以增加我们从模型中获得的输出的多样性，而无需求助于其他解码技术（例如采样）。这对于更开放的提示特别有用。

在图7中，我们要求PaLM和查询U-PaLM的所有变体写一首关于“一只猫在湖上烤蛋糕”的俳句——这是一个非常随机的提示，模型在训练过程中不太可能看到，但需要非常结构化的输出。这里所有的输出都使用贪婪解码，令人惊讶的是，所有的模型都生成了关于这个主题的合理的俳句，尽管并不是所有的都遵循严格的5-7-5音节结构。帕勒姆的俳句重复了第一行和最后一行，这就不那么有趣了。我们可以看到，查询U-PaLM的不同组合导致了令人愉快的变化的诗歌。

6结论和未来工作

我们提出UL2R用于持续训练PaLM。我们表明，只需≈0.1%的额外FLOP（或计算），我们就能够在许多下游任务和指标上改进PaLM的缩放曲线和特性。值得注意的是，UL2R能够在540B的规模下节省440万TPU4。我们称之为U-PaLM的最终模型在英语NLP任务（例如，常识推理和闭书问答）、具有思维链的推理任务、多语言推理、MMLU和一系列具有挑战性的BIG Bench任务方面优于PaLM。

此外，UL2R与FLAN等多任务微调方法配合得好吗？通常，我们想在这里以一个陈词滥调的未来工作声明结束，但今天不行，因为我们已经在这里做了（Chung et al.，2022）。看看吧！

鸣谢

我们感谢Le Hou和Oliver Bousquet对论文的建议和反馈。我们感谢Barret Zoph和William Fedus对本文件的早期讨论。我们感谢Adam Roberts对之前工作的反馈。

7附录

7.1few shot实验的缩放曲线细节

我们计算以下任务的平均聚合分数。我们使用21个零样本等级分类任务，即BoolQ、Record、COPA、RTE、WiC、WSC、CB、MultiRC、Winograd、Winogrande、ANLI R1、ANLI R2、ANLI R3、PIQA、StoryCloze、HellaSwag、Arc-e、Arc-C、RaceM、RaceH、OpenbookQA。我们使用了5个一次性生成任务，即TriviaQA、NaturalQuestions、WebQuestions，SQuaDV2和Lambada。除MultiRC外，所有任务都使用准确性（或精确匹配）度量，MultiRC报告如下（Brown等人，2020）。总的来说，聚合度量是所有26个任务的平均值。下面我们列出了与图2的540B比例图相对应的分数。

7.2 Vocab和Sentineltoken的详细信息

对于U-PaLM，我们必须对跨度损坏或填充任务进行训练。我们使用与UL2和T5相同的设置，在那里我们将哨兵token（例如，＜extra_id_0＞）注入到掩码位置。在T5中，哨兵id作为100个额外的vocbtoken添加到句子（vocb）的末尾。在PaLM中，由于我们从现有的PaLM检查点重新启动，在vocb中初始化100个新嵌入非常麻烦。因此，我们选择简单地使用最后100个子字作为哨兵token。最后，在训练模型时，我们还在vocb中使用eos符号。

7.3附加讨论

在本节中，我们将深入探讨一些其他主题和讨论。

7.3.1从头开始的训练怎么样？

我们对着房间里的大象讲话。这个问题有多种观点。首先，UL2R可以被认为是“UL2时间表”的一种形式，它将单个因果语言模型目标从0步设置到N步，然后进行从N步到N+ε的UL2混合。从这个意义上说，如果我们想从头开始训练，这将需要修改混合物，以具有明显更多的因果语言建模。第二个观点是，UL2R引入了一种自然课程，在该课程中，该模型在进行填充或学习如何利用双向感受野等任务之前，花费很大一部分训练来获得基本的语言建模。预训练任务是否有分类法或层次结构仍然是一个悬而未决的问题，我们希望在未来的工作中回答这个问题。第三个观点是U-PaLM的实践方面。从头开始训练PaLM 540B模型的成本非常高，我们希望尽可能多地重用现有模型（或组件），为新任务设计新模型。U-PaLM就是这类研究的一个例子。最后，考虑到许多语言模型都被训练为因果语言模型，我们相信UL2R为只需少量计算就可以改进现有模型提供了巨大的机会。7.3.2对FLAN或T0等许多新任务的监督微调如何？很高兴你问我。看看我们的其他工作（Chung et al.，2022），它表明UL2R和FLAN是互补的。

用0.1%的额外计算超越缩放定律

猜你喜欢

热点阅读