检索增强扩散模型的文本引导艺术图像合成

2022-11-16 本文已影响0人 Valar_Morghulis

编者整理中......

同一开源下的另一篇论文是著名的Latent-Diffusion，请参考：https://www.jianshu.com/p/816c60d981b1

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

https://arxiv.org/abs/2207.13038 （只有几页，而且大部分都是配图）

开源：https://github.com/compvis/latent-diffusion （4k星，demo震撼）

https://github.com/compvis/stable-diffusion （29.2k星）

https://paperswithcode.com/paper/high-resolution-image-synthesis-with-latent

基于检索增强扩散模型的艺术图像文本引导合成

新的架构最近改进了生成性图像合成，从而在各种任务中实现了出色的视觉质量。特别值得注意的是“人工智能艺术”领域，随着CLIP等强大的多模态模型的出现，该领域出现了前所未有的增长。通过将语音和图像合成模型相结合，建立了所谓的“即时工程”，即使用精心挑选和组合的句子在合成的图像中实现某种视觉风格。在本文中，我们提出了一种基于检索增强扩散模型（RDM）的替代方法。在RDM中，在每个训练实例的训练期间，从外部数据库中检索一组最近邻，扩散模型以这些信息样本为条件。在推断（采样）期间，我们将检索数据库替换为更专业的数据库，例如，只包含特定视觉样式的图像。这提供了一种新的方法，可以在训练后提示通用训练模型，从而指定特定的视觉样式。如我们的实验所示，这种方法优于在文本提示中指定视觉样式。我们在这个https URL上开放源代码和模型权重。

扩散模型最近开创了图像生成和可控合成领域的最新技术[9,22]。特别是在文本到图像的合成中，我们看到了令人印象深刻的结果[21,23]，这些结果也可以用于创建艺术图像。因此，这些模型有潜力帮助艺术家创造新内容，并为人工智能艺术领域的巨大发展做出了贡献[7]。然而，这些模型是非常需要计算的，到目前为止，除了接受训练的任务外，还不能用于其他任务。因此，在目前的工作中，我们建立在最近引入的检索增强扩散模型（RDM）[3,2]的基础上，该模型通过提供一个相对较小的生成模型和一个较大的图像数据库，也有可能显著降低训练所需的计算复杂性：虽然检索方法提供（本地）内容，模型现在可以专注于学习基于此内容的场景组成。在这个扩展的摘要中，我们缩放了RDM，并展示了它们生成艺术图像的能力，如图1所示。此外，我们可以通过使用CLIP[20]的联合文本图像表示空间来控制自然语言的合成过程，并证明我们通过从WikiArt[24]和ArtBench[16]构建的高度专业化的数据库中检索邻居来获得对输出视觉风格的细粒度控制。最后，我们还将模型权重的发布视为一种贡献，允许艺术家补充、扩展和评估其作品，并调查这些模型的固有偏差。

1检索增强扩散模型综述

在[3,2]之后，检索增强扩散模型（RDM）是条件潜在扩散模型cθ[12,22]、图像数据库Dtrain（被认为是模型的显式部分）和（不可训练）采样策略ξk的组合，以基于[3]中介绍的查询x获得Dtrain的子集。通过将ξk实现为最近邻算法来训练模型，以便对于每个查询（即训练示例），其k个最近邻作为一个集合返回，其中距离在CLIP[20]图像嵌入空间中测量。然后，通过交叉注意机制将这些最近邻居的CLIP嵌入到模型中[28,22]。训练目标如下

其中φCLIP是CLIP图像编码器，E（x）是[22,3]中部署的自动编码模型的编码器。训练后，我们将原始RDM的Dtrain替换为备用数据库Dstyle，该数据库源自艺术数据集[24,16]，以获得后期模型修改，从而实现零镜头风格化。此外，我们可以使用[3]中提出的CLIP[20]的共享文本图像特征空间，通过文本提示来指导合成过程。因此，我们得到了一个仅对图像数据进行训练的可控合成模型。

2使用RDM进行艺术图像的文本引导合成

2.1一般设置

我们对两个模型进行了实验：为了展示RDM的一般零镜头风格化潜力，我们按照[3]中的建议在ImageNet[8]上训练RDM的精确副本，即我们从OpenImages[15]构建Dtrain。为了进行推论，我们使用基于WikiArt[24]数据集的数据库Dstyle（参见第2.2节）来实现样式化。在第2.2节中，我们提出了一个更大的模型，该模型基于LAION-2B-en[25,1]中的100M个示例进行训练，数据库Dtrain更加多样化，其中包含该数据集的剩余1.9B个样本。此模型的示例如图1所示。通过在推断过程中与ArtBench数据集[16]的不同、特定于样式的子集交换此数据库，我们表明RDM可以进一步用于细粒度样式化，而无需为此任务进行训练。有关训练和推理的详细信息，请参见附录B。

2.2通过交换数据库实现零镜头文本引导风格化

通过将训练数据库Dtrain替换为WikiArt[24]，我们展示了图2中第2.1节中ImageNet RDM的零快照样式化功能。我们的模型虽然只接受了ImageNet的训练，但可以推广到这个新数据库，并且能够生成描述文本提示定义的内容的类似艺术品的图像。为了进一步强调数据库的这种事后交换的效果，我们显示了使用相同程序但使用Dtrain（底行）获得的样本

ArtBench的细粒度风格

许多功能强大的模型通过在给定提示中添加后缀“……以……的样式”来模拟文本驱动的样式化[22,19,21,23,30]。通过在推理过程中使用从ArtBench数据集[16]获得的样式特定数据库，我们在此提出了一种替代方法。图3显示了提示“昼夜争夺时间支配权”的结果和LAION-RDM。每列包含通过将Dtrain替换为特定于样式的ArtBench子集而生成的示例。为了进行定量评估，我们为两种方法的每种风格生成70个样本，然后使用风格分类器（详见附录C）进行分类，并比较准确度的相对提高（图4a）和分类器逻辑（图4b）。基于检索的方法几乎总是优于基于后缀的样式化。

3结论

在本说明中，我们提出了一种为视觉艺术训练可访问和可控制模型的方法：通过构建最近引入的检索增强扩散模型，我们的方法变得可访问，因为我们可以有效地存储图像数据库，并将一个相对较小的生成模型直接置于数据库中有意义的样本上，而不是将大型训练数据压缩成越来越大的生成模型。我们的方法是可控的，因为它允许对外部数据库进行事后替换，从而指定所需的视觉样式，在我们的实验中，这是对纯文本方法的有力替代。在未来的工作中，我们计划将此方法与成对文本图像数据的事后微调相结合。

检索增强扩散模型的文本引导艺术图像合成

猜你喜欢

热点阅读