T2I适配器：学习适配器以挖掘文本到图像扩散模型的更可控能力

2023-02-19 本文已影响0人 Valar_Morghulis

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

Feb 2023

Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie

[Peking University Shenzhen Graduate School, Tencent PCG, University of Macau, Shenzhen Institute of Advanced Technology]

https://arxiv.org/abs/2302.08453

https://github.com/TencentARC/T2I-Adapter

(get 369 stars in 3 days)

大规模文本到图像（T2I）模型令人难以置信的生成能力证明了学习复杂结构和有意义语义的强大能力。然而，仅仅依靠文本提示不能充分利用模型所学到的知识，特别是当需要灵活和准确的结构控制时。在本文中，我们的目标是“挖掘”“T2I模型已经隐式学习的功能，然后显式使用它们来更细粒度地控制生成。具体来说，我们建议学习简单和小型的T2I适配器，以使T2I模型中的内部知识与外部控制信号保持一致，同时冻结原始的大型T2I模型。这样，我们可以根据不同的条件训练各种适配器他有丰富的控制和编辑效果。此外，所提出的T2I-Adapter具有诱人的实用价值财产，例如可组合性和泛化能力。大量实验表明，我们的T2I适配器具有良好的生成质量和广泛的应用范围。

1.引言

由于对海量数据和巨大计算能力的训练，文本到图像（T2I）生成[21，19，15，18，5，29]，旨在生成基于给定文本/提示的图像，已显示出强大的生成能力。一旦我们有了精心设计的提示，就可以生成令人印象深刻的图像。这些结果通常具有丰富的纹理、清晰的边缘、合理的结构和有意义的语义。这种现象潜在地表明，T2I模型实际上可以以隐式方式很好地捕获不同级别的信息，从低级别（例如，纹理）、中间级别（例如边缘）到高级别（例如结构、语义）。

尽管可以实现有希望的合成质量，但它严重依赖于精心设计的提示，并且生成管道也缺乏灵活的用户控制能力，无法引导生成的图像的结构/样式准确地实现用户的想法。对于不专业的用户来说，生成的结果通常是不受控制和不稳定的。例如，最近提出的稳定扩散（SD）[19]在一些富有想象力的场景中表现不佳，如图1所示的“有翅膀的汽车”和“有兔子耳朵的钢铁侠”。我们可以发现，文本中描述的生成对象/人质量很高，但合成能力不令人满意。我们认为，这并不意味着T2I模型不具备生成此类结构的能力，只是文本无法提供准确的结构指导。

在本文中，我们很好奇是否有可能以某种方式“挖掘”T2I模型已经隐含学习的能力，特别是高级结构和语义能力，然后明确使用它们来更准确地控制生成。我们认为，一个非常小的模型可以实现这一目的，因为它不是学习这些能力，而是学习T2I模型中从控制信息到内部知识的映射。换句话说，这里的主要问题是“对齐”问题，即内部知识和外部控制信号应该对齐。因此，我们提出了T2I适配器，它是一个非常小的模型，可以用相对较少的数据量来学习这种对齐。T2I适配器为预训练的T2I扩散模型（即SD[19]）提供了额外的指导。通过这种方式，我们可以根据各种条件训练许多不同的适配器，并且它们可以为预训练的T2I模型提供更准确和可控的生成指导。T2I-适配器作为注入状态信息的额外网络，还具有以下具有实用价值的财产。他们是：

•即插即用。它们不会影响现有文本到图像扩散模型（例如，稳定扩散）的原始网络拓扑和生成能力。

•简单小巧。它们可以很容易地插入到现有的文本到图像扩散模型中，并且训练成本低。它们有少量的参数（～77M）和较小的存储空间（～300M），不会带来太多的计算成本。

•灵活。我们可以针对不同的控制条件（例如，草图、语义分割、关键点）训练各种适配器。

•可组合。可以容易地组合多个适配器以实现多条件控制。

•可推广。一旦经过训练，只要从相同的文本到图像模型进行微调，就可以在自定义模型上使用它们。此调动不需要再训练。

我们的贡献总结如下：1）。我们提出了T2I适配器，这是一种简单、高效但有效的方法，可以很好地协调T2I模型的内部知识和外部控制信号，且训练成本低。2). T2I适配器可以为现有T2I模型提供更精确的可控指导，同时不会影响其原始生成能力。3). 大量实验表明，我们的方法在各种条件下都能很好地工作，并且可以实现不同的控制和编辑效果。它还具有诱人的泛化能力。例如用徒手风格的绘图生成。

6. 讨论

在本文中，我们主要关注具有结构引导的适配器，如草图、分割图、关键点。其他指导也可用于训练适配器，如深度图、法线图、样式、3D骨架、粗略3D模型等。

我们的目标是训练小型适配器，以挖掘T2I型号的原始生成能力。尽管我们的T2I适配器足够小，但我们能否采用更小的网络仍有待研究。微型适配器非常吸引人。

T2I适配器：学习适配器以挖掘文本到图像扩散模型的更可控能力

猜你喜欢

热点阅读