用于标注高效语义分割的扩散模型
Label-Efficient Semantic Segmentation with Diffusion Models
December 2021
ICLR 2022 Poster
https://arxiv.org/abs/2112.03126
https://openreview.net/forum?id=SlxSY2UZQT
https://github.com/yandex-research/ddpm-segmentation
Authors: Dmitry Baranchuk, Ivan Rubachev, Andrey Voynov, Valentin Khrulkov, Artem Babenko
Abstract: Denoising diffusion probabilistic models have recently received much research attention since they outperform alternative approaches, such as GANs, and currently provide state-of-the-art generative performance. The superior performance of diffusion models has made them an appealing tool in several applications, including inpainting, super-resolution, and semantic editing. In this paper, we demonstrate that diffusion models can also serve as an instrument for semantic segmentation, especially in the setup when labeled data is scarce. In particular, for several pretrained diffusion models, we investigate the intermediate activations from the networks that perform the Markov step of the reverse diffusion process. We show that these activations effectively capture the semantic information from an input image and appear to be excellent pixel-level representations for the segmentation problem. Based on these observations, we describe a simple segmentation method, which can work even if only a few training images are provided. Our approach significantly outperforms the existing alternatives on several datasets for the same amount of human supervision.
摘要:去噪扩散概率模型最近受到了广泛的研究关注,因为它们优于GANs等替代方法,并且目前提供了最先进的生成性能。扩散模型的优异性能使其在一些应用中成为一种极具吸引力的工具,包括修复、超分辨率和语义编辑。在本文中,我们证明了扩散模型也可以作为语义分割的工具,尤其是在标记数据稀少的情况下。特别是,对于几个预训练扩散模型,我们研究了执行反向扩散过程马尔可夫步的网络的中间激活。我们表明,这些激活有效地捕获了输入图像的语义信息,并且似乎是分割问题的优秀像素级表示。基于这些观察,我们描述了一种简单的分割方法,即使只提供少量的训练图像,该方法也可以工作。我们的方法在多个数据集上同等人类监督的情况下的表现明显优于现有的其它方法。
高清原图:https://camo.githubusercontent.com/7184d71683c7ea1ecab0e6d8f2135a1adf2d87d5f3ccdb48820690335e7da469/68747470733a2f2f73746f726167652e79616e646578636c6f75642e6e65742f79616e6465782d72657365617263682f6464706d2d7365676d656e746174696f6e2f666967732f6578616d706c65732e706e67去噪扩散概率模型最近受到了广泛的研究关注,因为它们的性能优于GANs等其它可选方法,并且目前提供了最先进的生成性能。扩散模型的优异性能使其在一些应用中成为一种极具吸引力的工具,包括修复、超分辨率和语义编辑。在本文中,我们证明了扩散模型也可以作为语义分割的工具,尤其是在标注数据稀少的情况下。特别是,对于几个预训练扩散模型,我们研究了执行反向扩散过程马尔可夫步的网络的中间激活。我们表明,这些激活有效地捕获了输入图像的语义信息,并且似乎是分割问题的优秀像素级表示。基于这些观察,我们描述了一种简单的分割方法,即使只提供少量的训练图像,该方法也可以工作。我们的方法在多个数据集上的表现明显优于现有的其它可选方法,因为人类的监督量相同。
1简介
去噪扩散概率模型(DDPM)(Sohl Dickstein et al.,2015;Ho et al.,2020)最近在模拟自然图像的分布方面,无论是在单个样本的真实性还是其多样性方面,都优于其他方法(Dhariwal&Nichol,2021)。DDPM的这些优势在应用中得到了成功利用,如彩色化(Song et al.,2021)、修复(Song et al.,2021)、超分辨率(Saharia et al.,2021;Li et al.,2021b)和语义编辑(Meng et al.,2021),其中DDPM通常比GANs取得更令人印象深刻的结果。
然而,到目前为止,DDPM还没有被用来作为区分性计算机视觉问题的有效图像表示的来源。虽然之前的文献已经证明,各种生成范式,如GANs(Donahue&Simonyan,2019)或自回归模型(Chen et al.,2020a)可以用于提取常见视觉任务的表征,但尚不清楚DDPM是否也可以作为表征学习者。在本文中,我们在语义分割的背景下对这个问题给出了肯定的答案。
特别是,我们研究了U-Net网络的中间激活,该网络近似于DDPM中反向扩散过程的马尔可夫步。直觉上,这个网络学习去噪其输入,不清楚为什么中间激活应该捕获高级视觉问题所需的语义信息。然而,我们表明,在某些扩散步骤上,这些激活确实捕获了此类信息,因此,可以潜在地用作下游任务的图像表示。鉴于这些观察结果,我们提出了一种简单的语义分割方法,该方法利用了这些表示,即使只提供了少量标注图像,也能成功地工作。在多个数据集上,我们证明了我们基于DDPM的分割方法在相同的监督量下优于现有的基线。
综上所述,我们的论文贡献如下:
1、我们研究了最先进的DDPM学习到的表示,并表明它们捕获了对下游视觉任务有价值的高级语义信息。
2、我们设计了一种简单的语义分割方法,该方法利用了这些表示,并在少数镜头操作点上优于其他方法。
3、在相同的数据集上,我们将基于DDPM的表示与基于GAN的表示进行了比较,并在语义分割方面展示了前者的优势。
2相关工作
在本节中,我们简要描述了与我们的工作相关的现有研究路线。
扩散模型
(Sohl Dickstein et al.,2015;Ho et al.,2020)是一类生成模型,通过马尔可夫链的端点近似真实图像的分布,马尔可夫链源自简单的参数分布,通常是标准高斯分布。每个马尔可夫步骤由一个深度神经网络建模,该网络可以有效地学习用已知的高斯核反转扩散过程。Ho等人强调了扩散模型和分数匹配的等效性(Song&Ermon,2019;2020),表明它们是通过迭代去噪过程将简单已知分布逐步转换为目标分布的两种不同观点。最近的作品(Nichol,2021;Dhariwal&Nichol,2021)开发了更强大的模型架构以及不同的高级目标,这导致DDPM在生成质量和多样性方面战胜了GANs。DDPM已广泛应用于多种应用,包括图像彩色化(Song等人,2021)、超分辨率(Saharia等人,2021;Li等人,2021b)、修复(Song等人,2021)和语义编辑(Meng等人,2021)。在我们的工作中,我们证明了也可以成功地将它们用于语义分割。
基于生成模型的图像分割是当前一个活跃的研究方向,然而现有的方法主要是基于GANs的。第一行作品(Voynov&Babenko,2020;Voynov et al.,2021;Melas Kyriazi et al.,2021)基于这样的证据,即最先进的GANs的潜在空间具有与影响前景/背景像素不同的效果相对应的方向,这允许生成合成数据来训练分割模型。然而,这些方法目前只能执行二进制分割,并且不清楚它们是否可以用于语义分割的一般设置。第二行工作(Zhang等人,2021;Tritrong等人,2021;Xu,2021;Galeev等人,2020)与我们的研究更为相关,因为它们基于在GANs中获得的中间表示。特别是(Zhang等人,2021)提出的方法在这些表示上训练像素类预测模型,并确认其标注效率。在实验部分,我们将(Zhang等人,2021)的方法与基于DDPM的方法进行了比较,并展示了我们的解决方案的几个独特优势。
区分性任务的生成模型表示。
生成模型作为表征学习者的使用已被广泛用于全球预测(Donahue&Simonyan,2019;Chen et al.,2020a)和密集预测问题(Zhang et al.,2021;Tritrong et al.,2021;Xu,2021;Xu et al.,2021)。虽然之前的工作强调了这些表征的实际优势,如分布外鲁棒性(Li等人,2021a),但与基于对比学习的其它可选无监督方法相比,作为表征学习者的生成模型受到的关注较少(Chen等人,2020b)。主要原因可能是难以在复杂、多样的数据集上训练高质量的生成模型。然而,鉴于最近在Imagenet上成功实现了DDPM(Deng等人,2009年),可以预计,这一方向将在未来引起更多关注。
3扩散模型的表示
在下一节中,我们将研究通过扩散模型学习的图像表示。首先,我们简要概述了DDPM框架。然后,我们描述了如何使用DDPM提取特征,并研究这些特征可能捕获的语义信息。
出身背景
扩散模型转换噪声xT∼N(0,I)到样本x0,通过逐渐将xT去噪到噪声较小的样本xT。形式上,我们得到了一个正向扩散过程:
对于某些固定方差表β1,βt。
重要的是,可以直接从数据x0中获得噪声样本xt:
预训练DDPM近似于反向过程:
实际上,噪声预测网络cθ(xt,t)不是预测方程(3)中分布的平均值,而是预测步骤t处的噪声分量;然后,平均值是该噪声分量和xt的线性组合。协方差预测器∑θ(xt,t)可以是一组固定的标量协方差,也可以是学习的(后者被证明可以提高模型质量(Nichol,2021))。
去噪模型cθ(xt,t)通常由UNet架构的不同变体参数化(Ronneberger et al.,2015),在我们的实验中,我们研究了(Dhariwal&Nichol,2021)中提出的最先进模型。
正在提取表达。
对于给定的真实图像x0∈ R H×W×3,可以从噪声预测网络cθ(xt,T)计算T组激活张量。图1给出了时间步t的总体方案。首先,我们通过根据方程(2)添加高斯噪声来破坏x0。噪声xt用作由UNet模型参数化的cθ(xt,t)的输入。然后使用双线性插值将UNet的中间激活上采样到H×W。这允许将它们视为x0的像素级表示。
3.1表征分析
我们分析了噪声预测器cθ(xt,t)对不同t产生的表示。我们考虑了在LSUN Horse和FFHQ-256数据集1上训练的最先进的DDPM检查点。
噪声预测器的中间激活捕获语义信息。
在这个实验中,我们从LSUN-Horse和FFHQ数据集中获取了一些图像,并手动将每个像素分别分配给21个和34个语义类中的一个。我们的目标是了解DDPM生成的像素级表示是否有效地捕获了语义信息。为此,我们训练多层感知器(MLP)根据特定扩散步骤t上18个UNet解码器块中的一个产生的特征预测像素语义标签。请注意,我们只考虑解码器激活,因为它们还通过跳过连接聚合编码器激活。MLP在20幅图像上进行训练,并在20幅保持图像上进行评估。预测性能根据平均IoU进行衡量
图2显示了不同区块和扩散步骤t的预测性能演变。这些区块从深到浅依次编号。图2显示了噪声预测器cθ(xt,t)产生的特征的可辨别性因不同的块和扩散步骤而不同。特别地,与反向扩散过程的后续步骤相对应的特征通常更有效地捕获语义信息。相比之下,与早期步骤相对应的步骤通常没有信息。在不同的块中,UNet解码器中间的层产生的特征似乎是所有扩散步骤中信息量最大的。
此外,我们还根据标注数据集中的平均面积分别考虑了小型和大型语义类。然后,我们在不同的UNet块和扩散步骤中独立评估这些类的平均IoU。LSUN马的结果如图3所示。正如预期的那样,大型对象的预测性能在反向过程中开始提前增长。较浅的块体对较小的物体信息更丰富,而较深的块体对较大的物体信息更丰富。在这两种情况下,最具辨别力的特征仍然对应于中间的块。
图2表明,对于某些UNet块和扩散步骤,类似的基于DDPM的表示对应于具有相同语义的像素。图4显示了由FFHQ检查点从扩散步骤{50、200、400、600、800}上的块{6、8、10、12}中提取的特征形成的k均值聚类(k=5),并确认聚类可以跨越连贯的语义对象和对象部分。在块B=6中,特征对应于粗略的语义掩码。在另一个极端,B=12的特征可以区分细粒度的面部零件,但对于粗碎片,其语义意义较小。在不同的扩散步骤中,最有意义的特征对应于后面的特征。我们将这种行为归因于这样一个事实,即在反向过程的早期步骤中,DDPM样本的全局结构尚未出现,因此,在这一阶段很难预测分割掩码。图4中的mask定性地证实了这一直觉。对于t=800,mask很难反映实际图像的内容,而对于较小的t值,mask和图像在语义上是一致的。
3.2基于DDPM的few shot语义分割表示
以上观察到的中间DDPM激活的潜在有效性意味着它们可以作为密集预测任务的图像表示。图1示意性地展示了我们的整体图像分割方法,该方法利用了这些表示的可辨别性。更详细地说,当大量未标注图像{X1,…,XN}⊂ 特定域中的R H×W×3可用,并且仅适用于n个训练图像{X1,…,Xn}⊂ R H×W×3基本真理K类语义掩码{Y1,…,Yn}⊂ 提供了R H×W×{1,…,K}。
作为第一步,我们以无监督的方式在整个{X1,…,XN}上训练扩散模型。然后,使用该扩散模型使用UNet块的子集和扩散步骤t提取标注图像的像素级表示。在这项工作中,我们使用UNet解码器的中间块B={5、6、7、8、12}和反向扩散过程的后续步骤t={50、150、250}的表示。这些块和时间步的动机来自第3.1节的见解,但有意不针对每个数据集进行调整。
虽然特定时间步的特征提取是随机的,但我们固定了所有时间步t的噪声,并在第4.1节中消除了这一点。从所有块B和步骤t提取的表示被上采样到图像大小并串联,形成训练图像的所有像素的特征向量。像素级表示的总体尺寸为8448。
然后,继(Zhang等人,2021)之后,我们在这些特征向量上训练一组独立的多层感知器(MLP),目的是预测可用于训练图像的每个像素的语义标签。我们采用了(Zhang等人,2021)的集合配置和训练设置,并在我们的实验中利用了所有其他方法,详情见附录C。
为了分割测试图像,我们提取其基于DDPM的像素级表示,并使用它们通过集合预测像素标签。最终预测通过多数投票获得。
4个实验
本节通过实验证实了基于DDPM的表示在语义分割问题上的优势。我们从与现有备选方案的彻底比较开始,然后通过额外的分析剖析DDPM成功的原因。
数据集。
在我们的评估中,我们主要研究了LSUN(Yu等人,2015)和FFHQ-256(Karras等人,2019)的“卧室”、“猫”和“马”类别。作为每个数据集的训练集,我们考虑了几个图像,这些图像的细粒度语义掩码是按照来自的协议收集的(Zhang等人,2021)。对于每个数据集,都聘请了一名专业评估员对训练和测试样本进行注释。我们将收集的数据集表示为卧房28、FFHQ-34、Cat-15、Horse21,其中数字对应于语义类的数量。
此外,我们考虑了两个数据集,与其他数据集相比,这两个数据集具有公开可用的注释和较大的评估集:
•ADE-卧房-30是ADE20K数据集(Zhou等人,2018)的一个子集,在该数据集中,我们仅提取30个最频繁上课的卧房场景的图像。对于较小的一面,我们将每个图像的大小调整为256,然后裁剪它们以获得256×256个样本。
•CelebA-19是CelebAMask HQ数据集的子集(Lee等人,2020),该数据集为19个面部属性提供注释。所有图像的大小都调整为256分辨率。
表1列出了每个数据集的注释图像数。其他详情见附录E。
方法。
在评估中,我们将我们的方法(表示为DDPM)与之前处理少量镜头语义分割设置的几种方法进行了比较。首先,我们描述了产生大量带注释的合成图像以训练分割模型的基线:
•数据集(Zhang等人,2021)-
该方法利用了GANs产生的像素级特征的可鉴别性。更详细地说,评估人员对一些GAN制作的图像进行了注释。然后,使用这些图像的潜在代码来获得中间生成器激活,这些激活被视为像素级表示。给定这些表示,训练分类器来预测每个像素的语义标签。然后,该分类器用于标注新的合成GAN图像,就其而言,这些图像可作为DeepLabV3分割模型的训练集(Chen等人,2017)。对于每个数据集,我们增加合成图像的数量,直到验证集的性能不饱和。根据(Zhang等人,2021),我们还去除了10%预测最不确定的合成样本。
•数据集DDPM反映了数据集GAN基线,唯一的区别是GAN被DDPM替换。我们使用此基线来比较同一场景中基于GAN和基于DDPM的表示。
请注意,与DatasetGAN和DatasetDDPM相比,第3.2节中描述的分割方法更简单,因为它不需要合成数据集生成的辅助步骤,也不需要在合成数据集上训练分割模型。
然后,我们考虑一组基线,允许直接从真实图像中提取中间激活,并使用它们作为像素级表示,类似于我们的方法。与DatasetGAN和DatasetDDPM相比,由于真实图像和合成图像之间不存在域差异,这些方法可能是有益的。
•MAE(He等人,2021)-最先进的自监督方法之一,它学习去噪自动编码器来重建缺失的patch。我们使用ViT Large(Dosovitskiy et al.,2021)作为主干模型,并将patch大小减少到8×8,以增加特征地图的空间维度。我们使用官方代码2在与DDPM相同的数据集上预训练所有模型。附录F中描述了该方法的特征提取。
•SwAV(Caron等人,2020年)——一种最新的自监督方法。我们考虑使用一个两倍宽的ResNet-50模型进行评估。所有模型在与DDPM相同的数据集上进行预训练,也使用官方源代码3。输入图像分辨率为256。
•GAN反演采用最先进的方法(Tov等人,2021)获得真实图像的潜在代码。我们将带注释的真实图像映射到GAN潜在空间,该空间允许计算中间生成器激活并将其用作像素级表示。
•GAN编码器-当GAN反转努力从LSUN域重建图像时,我们还考虑了用于GAN反转的预训练GAN编码器的激活。
•VDVAE(Child,2021)-最先进的自动编码器型号。中间激活从编码器和解码器中提取并串联。虽然LSUN数据集上没有预训练的模型,但我们仅在FFHQ-256上公开可用的checkpoint4上评估该模型。注意,在LSUN上,VAE仍然明显低于GANs和DDPM。
•ALAE(Pidhorskyi等人,2020年)采用StyleGANv1生成器,并在对抗性训练中添加编码器网络。我们从编码器模型中提取特征。在我们的评估中,我们在LSUN卧室和FFHQ-10245上使用了公开可用的模型。
生成预训练模型。
在我们的实验中,我们将最先进的StyleGAN2(Karras et al.,2020)模型用于基于GAN的基线,并将最先进的预训练ADM(Dhariwal&Nichol,2021)用于基于DDPM的方法。由于FFHQ-256没有经过预训练的模型,我们使用官方实施6自行训练。为了对Adeboom-30数据集进行评估,我们使用了在LSUN卧房上预训练的模型(包括基线)。
对于Celeba-19,我们评估了在FFHQ-256上训练的模型。
主要结果。
表2给出了两种方法在平均IoU度量方面的比较。对于不同的数据拆分,在5次独立运行中对结果进行平均。我们还在附录D中报告了每类IOU。此外,我们在图5中提供了几个使用我们的方法进行分割的定性示例。下面我们重点介绍几个关键观察结果:
•在大多数数据集上,基于DDPM表示的拟议方法明显优于备选方法。
•MAE基线是基于DDPM的细分的最强竞争对手,并在FFHQ-34和Cat-15数据集上展示了可比结果。
•与基于DDPM的细分相比,SwAV基线表现不佳。我们将这种行为归因于这样一个事实,即该基线是以区分方式训练的,并且可以抑制细粒度语义分割所需的细节。这一结果与(Cole等人,2021)的最新研究结果一致,该研究结果表明,最先进的对比方法产生的表征对于细粒度问题而言是次优的。
•与大多数基准相比,DatasetDDPM的性能优于其对应的DatasetGAN。请注意,这两种方法都使用DeepLabV3网络。我们将这一优势归因于DDPM合成的质量更高,因此,合成数据和真实数据之间的域差距更小。
•在大多数数据集上,DDPM优于DatasetDDPM的竞争对手。我们在下面的讨论部分提供了一个额外的实验来研究这一点。总体而言,所提出的基于DDPM的分割优于利用其它可选生成模型的基线以及以自监督方式训练的基线。这一结果突出了使用最先进的DDPM作为强大的无监督表征学习者的潜力。
4.1讨论
训练对真实数据的影响。
所提出的DDPM方法是在带注释的真实图像上训练的,而DatasetDDPM和DatasetGAN是在合成图像上训练的,合成图像通常不太自然、多样,并且可能缺少特定类的对象。此外,合成图像很难进行人类注释,因为它们可能有一些扭曲的对象,很难指定给特定的类。在下面的实验中,我们量化了在真实或合成数据上进行训练所导致的性能下降。具体而言,表3报告了在真实、DDPM生成和GAN生成的注释图像上训练的DDPM方法的性能。可以看出,在生成模型的保真度仍然相对较低的领域,对真实图像进行训练非常有益,例如LSUN Cat,这表明带注释的真实图像是更可靠的监督来源。此外,如果在合成图像上训练DDPM方法,其性能将与DatasetDDPM相当。另一方面,当对GAN生成的样本进行训练时,DDPM显著优于DatasetGAN。我们认为这是因为DDPM提供了比GANs更具语义价值的像素级表示。
样品效率。
在这个实验中,我们评估了我们的方法在使用较少注释数据时的性能。我们在表4中提供了四个数据集的mIoU。重要的是,DDPM仍然能够超越表2中的大多数基线,使用更少的监督。
随机特征提取的效果。在这里,我们研究我们的方法是否可以受益于第3.2节中描述的随机特征提取。我们考虑确定性情况,当噪声c∼N(0,I)采样一次,并在(2)中使用,以获得训练和评估期间所有时间步t的xt。然后,我们将其与以下随机选项进行比较:
首先,针对不同的时间步t对不同的ct进行采样,并在训练和评估期间共享。第二,在每个训练迭代中,对所有时间步采样不同的噪声;在评估过程中,该方法还使用了看不见的噪声样本。
结果见表5。正如人们所看到的,性能上的差异是微乎其微的。我们将这种行为归因于以下原因:
•我们的方法使用反向扩散过程的后期t,其中噪声幅度较低。
•由于我们利用了UNet模型的深层,噪声可能不会显著影响这些层的激活。
对输入损坏的鲁棒性。
在本实验中,我们研究了基于DDPM的表示的鲁棒性。首先,我们使用卧室28和马21数据集上的DDPM、SwAV和MAE表示,学习干净图像上的像素分类器。然后,采用了18种不同的腐败类型(Hendrycks&Dieterich,2019)来测试图像。每个腐败都有五个严重级别。在图6中,我们提供了针对1、3、5个严重级别的所有腐败类型计算的平均IOU,分别表示为“弱”、“中”和“强”。
可以观察到,所提出的基于DDPM的方法具有更高的鲁棒性,即使对于严重的图像失真,也保持了其相对于SwAV和MAE模型的优势。
5结论
本文证明了DDPM可以作为区分性计算机视觉问题的表征学习者。与GANs相比,扩散模型允许直接计算真实图像的这些表示,并且不需要学习额外的编码器,将图像映射到潜在空间。这种DDPM的优势和优越的生成质量在few shot语义分割任务中提供了最先进的性能。基于DDPM的分割的显著限制是需要在手头的数据集上训练高质量的扩散模型,这对于复杂领域(如ImageNet或MSCOCO)来说可能是一个挑战。然而,鉴于DDPM的快速研究进展,我们预计他们将在最近的将来达到这些里程碑,从而扩大相应表示的适用范围。
C训练设置
MLP集合由10个独立模型组成。每个MLP都接受过以下方面的训练∼使用Adam optimizer(Kingma&Ba,2015)的4个时代,学习率为0.001。批次大小为64。此设置用于所有方法和数据集。
MLP架构。
我们采用了(Zhang等人,2021)的MLP架构。具体来说,我们使用具有两个隐藏层的MLP,该层具有ReLU非线性和批量归一化。对于类数小于30的数据集,隐藏层的大小分别为128和32,对于其他数据集,隐藏层的大小分别为256和128。
此外,我们在卧室28和FFHQ-34数据集上评估了拟议方法对两倍宽/深MLP的性能,未观察到任何明显差异,见表7。
E数据集详细信息
E、 1类名称
卧室-28:[床、踏板、床头板、扶手、地毯、天花板、枝形吊灯、窗帘、靠垫、地板、桌子、桌面、图片、枕头、灯柱、灯罩、墙、窗、窗帘杆、窗框、椅子、画框、底座、门、衣柜、植物、餐桌员工]
FFHQ-34:[背景、头部、脸颊、下巴、耳朵、螺旋、小叶、底盖、睫毛、虹膜、瞳孔、巩膜、泪管、上盖、眉毛、前额、皱眉、头发、鬓角、下巴、胡子、下唇、口腔连合、上唇、牙齿、颈部、鼻子、鼻翼、鼻梁、鼻尖、鼻孔、中指、太阳穴、皱纹]
Cat-15:[背景,背部,腹部,胸部,腿部,爪子,头部,耳朵,眼睛,嘴巴,舌头,尾巴,鼻子,胡须,脖子]
马-21:[背景,人物,背部,枪管,缰绳,胸部,耳朵,眼睛,前肢,头,蹄,腿,鬃毛,口吻,脖子,鼻孔,尾巴,大腿,鞍座,肩膀,腿保护]
CelebA-19:[背景、布料、耳朵r、眼睛g、头发、帽子、l眉毛、l耳朵、l眼睛、l嘴唇、嘴巴、脖子、脖子l、鼻子、r眉毛、r耳朵、r眼睛、皮肤、u嘴唇]
ADE-卧室-30:[墙、床、地板、桌子、灯、天花板、油漆、窗格、枕头、窗帘、靠垫、门、椅子、橱柜、箱子、镜子、地毯、扶手椅、书、壁橱、植物、衣柜、时钟、灯、花、花瓶、风扇、盒子、书架、电视]
E、 2类统计
在图10中,我们报告了根据带注释的真实图像以及由GAN和DDPM生成的带注释的合成图像计算的类的统计信息。
F从MAE中提取表示
为了获得像素表示,我们将该模型应用于分辨率为256的完全观察图像(掩模比=0),并从最深的12个ViT-L块中提取特征地图。每个块的特征图具有1024×32×32维。与其他方法类似,我们将提取的特征映射向上采样到256×256,并将它们连接起来。像素表示的外形尺寸为12288。
此外,我们研究了其他特征提取策略,并获得了以下观察结果:
1、包括解码器的激活没有提供任何明显的收益;
2、在自注意层之后立即提取激活导致性能稍差;
从每秒钟的编码器块中提取激活也会产生更糟糕的结果。