The Flan Collection: Designing D
研究了公开可用的指令调优方法的设计决策,并分解了Flan 2022模型。通过对指令调优任务和方法的Flan集合的仔细研究,我们梳理了设计决策的影响,使FlanT5在评估设置中优于之前的工作3-17%以上。我们发现任务平衡和丰富技术被忽视了,但对有效的指令调优至关重要;特别是,混合提示设置(zero-shot、few-shot和思想链)的训练实际上在所有设置中都能产生更强的(2%以上)性能。在进一步的实验中,表明Flan-T5需要更少的微调才能在单个下游任务上比T5收敛得更高和更快——激励指令调优模型作为新任务的更有效的计算启动检查点。最后,为了加速指令调优的研究,我们公开了Flan 2022数据集、模板和方法集合。
Flan 2022集合提供了最广泛的公开可用的指令调优任务和方法集,我们在一个地方编译了这些任务和方法。我们还补充了数百个我们自己的高质量模板、更丰富的格式模式和数据增强。我们表明,在这个集合上训练的模型在所有测试的评估基准上都优于其他公共集合,包括原始的Flan 2021 (Wei等人,2021),T0++ (Sanh等人,2021),Super-Natural Instructions (Wang等人,2022c),以及OPT-IML上的并发工作(Iyer等人,2022)。如图1所示,对于同等大小的模型,这包括MMLU (Hendrycks等人,2020年)和BIG-Bench Hard (Suzgun等人,2022年)评估基准分别提高4.2%和8.5%。
对Flan 2022方法的分析表明,强大的结果既源于更大、更多样化的任务集,也源于一组简单的微调和数据增强技术。特别是,在模板化的示例中进行训练,这些示例包含zero-shot、few-shott和cot,可以一起提高每种设置下的性能。 adding just 10% few-shot prompts improves zero-shot prompting results by 2%+。此外,通过反转输入-输出对来丰富任务多样性,如在(Sanh等人,2021;Min等人,2022),以及平衡任务源,都被证明对性能至关重要。由此产生的Flan-T5模型在单任务微调中收敛更快,性能比T5模型更高,这表明指令调优模型为下游应用程序提供了更高效的starting checkpoint,证实了Aribandi等人(2021)和Liu等人(2022b)。
贡献
方法:证明使用zero-shot和few-shot prompts的训练在两种情况下都能产生更好的表现\
方法:度量和演示指令调优的关键技术:用输入反转丰富任务种类,添加思维链训练数据,平衡不同的数据源
结果:演示Flan-T5作为单任务优化的更强大、计算效率更高的starting checkpoint
结果:开源新的Flan 2022任务集、模板和公共研究方法。
Flan 2022 Instruction Tuning Experiments
我们开源了一个新的集合,表示为“Flan 2022”,它结合了Flan 2021、P3++3、超自然指令,以及一些额外的推理、对话和程序合成数据集
我们将评估Flan中的设计决策,并特别讨论对指令调优配方产生强大改进的四个设计决策。这些设计组件在第2节中概述:(I)在训练中使用混合的zero-shot、few-shot和cot(第3.2节),(II)将t5大小的模型缩放到1800多个任务(第3.3节),(III)用输入反转丰富任务(第3.4节),以及(IV)平衡这些任务混合(第3.5节)。在3.1节中,我们首先测量每个组件的值,并将最终模型与替代指令调优集合(及其方法)进行比较。
1.Training with Mixed Prompt Settings
在InstructGPT(欧阳等人,2022)中,一个被低估的设计决策是为每个提示设置混合训练模板,而不是针对单个设置。然而,由于欧阳等人(2022)没有研究这一选择,我们预计在对zero-shot或few-shot提示性能进行微调时存在性能权衡-特别是对于较小的模型。相反,我们发现混合使用zero-shot和few-shot提示的训练在两种设置下都显著提高了性能——最令人惊讶的是,即使对于只有3B参数的模型也是如此。
2. Scaling Small Models to 1.8k+ Tasks
图4展示了hold - in和hold - out任务似乎都可以从添加数百个微调任务中获益。固定任务评估的峰值约为200个任务,随着更多任务的加入,性能下降,尽管较大的模型峰值较晚,下降较少。hold -out任务性能随任务数量呈对数线性增长,在所有1836个任务中达到最高性能。
3. Task Enrichment with Input Inversion
例如,一个数据集最初可能是为给定一个问题x而设计的,评估一个模型是否可以回答y。输入反转则为一个模型提供答案y,并训练它生成问题x。这是一种简单的方法,可以在给定有限的数据源集的情况下丰富任务种类。然而,当已有100个唯一数据源和1000个任务可用时,这种方法是否仍然有用还不清楚。
为了评估这一点,我们用输入倒置任务来丰富我们的混合(附录B中的细节和示例)并测量效果。在表1中,我们发现这对hold -In性能没有好处,但对hold - out性能有很大好处。这些好处为LLM微调的数据增强技术带来了前景,此前已被证明,预训练模型的时间越长,收益就越递减
4. Balancing Data Sources
混合加权值得同样重视优化结果。为了收敛于平衡的权重,我们省略了不同的任务源集,一次一个(Flan 2021, T0-SF,超自然指令,思维链,对话和程序合成)
如表2所示,Flan 2021和T0-SF是最有益的混合物,其次是超自然指令和思想链,最后是对话框和程序合成。这些发现得到了Iyer等人(2022)的证实,他们广泛测试了数据混合比例,并确定他们的Flan 2021、T0-SF和T5混合物是最广泛有益的。此外,他们发现Super-Natural指令在hold - out任务执行方面的扩展优势有限,这与其独特的输入格式和指令设计有关。值得注意的是,思维链微调似乎对我们所有的评估设置都是有益的,特别是考虑到它们包含的任务比Flan 2021、T0-SF或Natural Instructions少得多。
我们使用这些发现来显著缩小混合权重搜索空间,并从那里使用我们从业者的直觉。这个策略简单而有效,如表1所示,但是为将来更复杂的工作留下了足够的空间。