InseRF在3D场景中插入生成对象

2024-01-24  本文已影响0人  小黄不头秃

InseRF,(Text-Driven Generative Object Insertion in Neural 3D Scenes,基于文本驱动的生成式物体插入三维模型技术)本文首先讨论了最近的3D场景编辑的转换,通过将强先验的2D文本条件扩散模型到3D生成建模。作者指出,虽然现有的方法在修改现有内容方面很有效,但它们通常难以实现3D一致性和本地化编辑,特别是在指示删除对象或在场景中创建新对象时。

为了解决这一限制,作者提出了InseRF,它基于使用参考2D编辑的插入。该方法在几个3D场景上进行了评估,实验表明该方法能够在3D场景中插入不同的对象,而不需要明确的3D空间指导。

该文件还对拟议方法及其与现有基线的比较进行了定量评价。该评估基于三个不同的度量:CLIP文本图像相似性,方向文本图像相似性和时间方向一致性。评估结果表明,InseRF在所有三个指标上都有效地优于基线。

除了定量评估外,本文还提供了使用InseRF在3D场景中插入生成对象的可视化示例。作者还将所提出的方法与基线进行了比较,表明基线在场景中创建目标对象时很困难。本文还讨论了所提出的细化步骤对插入对象的纹理和细节的影响,从而获得更高质量和更真实的插入。

总的来说,本文提出了一种新的方法生成对象插入在3D场景中,解决了现有方法的局限性。所提出的方法,InseRF,是基于接地插入使用参考2D编辑,并能够3D一致的对象插入,而不需要明确的信息的3D放置。该文件提供了一个定量的评估和可视化的例子,所提出的方法的有效性,突出其优势,现有的基线。

1、相关词汇

(1)基于文本的3D场景编辑:利用2D文本条件的扩散模型的强大先验与3D声称是建模中去。存在问题:3D一致性、本地化编辑问题

(2)从3D场景中移除物体:场景中物体的三维一致性移除和修复

(3)生成对象插入:作者假设提供了对象的多视图掩码,并提出了一种将单视图修复传播到其他视图的方法

2、具体方法

该论文的方法将 3D 场景的 NeRF 重建、要插入的目标对象的文本描述以及场景的参考渲染视图中的 2D 边界框作为输入。作为输出,该方法返回同一场景的 NeRF 重建,其中包含生成的目标 3D 对象,该对象放置在 2D 边界框引导的位置。值得注意的是,该方法只需要一个粗略的边界框,因为该方法依赖扩散模型的先验来进行精确的 2D 定位。该方法由五个主要步骤组成:

从图中可以看出,输入是一个二维的视角的图片,然后基于一个边框和一段描述可以在制定的位置生成描述的物品。这里使用了两个模型,第一个是Imagen,用于图片生成文字。然后第二个是RePaint,用于画面修复。

接下来,这张图片将会进入到两个分支:

(1)单视角物体重建:

边界框内的物体此时是一个2D图像,那么就是需要在这个单视角下对这个物体进行3维重建。该论文中使用的是SyncDreamer方法进行物体重建(这个方法是重建质量和效率中和的一个方法,这也是一个大模型,有强大的先验)。

(2)深度估计:

此时我们获得了一个三维模型,但是我们还不确定其在场景中的位置和深度关系。为了确定物体在三维视锥体中的位置,本文利用先验从单目深度估计的方法。利用了MiDaS对编辑后的参考图估计物体对于参考相机的深度。由于MiDaS提供了非量测的深度测量,我们通过估计参考深度图和估计深度图之间的全局尺度和偏移,在编辑的参考视图的估计深度和场景NeRF渲染的参考深度之间进行额外的深度对齐。

具体来说,为了使目标区域周围的对齐更加准确,文章使用加权最小二乘估计来估计对齐参数,其中测量值根据其与目标边界框中心的距离进行反向加权。在对齐之后,我们使用物体边界框中的中心像素深度d作为视锥体中物体中心的粗略估计,这将在下一步中进一步优化。

(3)3D的物体的放置

(4)更新NERF

为了让场景和对象更加精细的融合,文章选取了和Instruct-NeRF中提出的迭代方案。

首先,从融合的不同视角下渲染一组图像。然后利用二维的扩散模型对采样后的图像进行进一步的细化,并且依次加入到NeRF模型的微调中。这其中与Instruct-NeRF方法不同的是我们可以获得在不同图像中对象的掩码,以便于将插入对象限制在区域中。另外,与Instruct-NeRF不同的是,InseRF的位置是已知的。


3、实验结果

实验结果表明,InseRF在NeRF中插入一致的物体方面表现优越,相较于现有方法具有更高的性能。研究人员在MipNeRF-360和Instruct-NeRF2NeRF数据集上对室内外场景进行了测试,清晰展示了InseRF在局部修改场景和插入3D一致物体方面的卓越能力。

尽管InseRF的性能受到底层生成式2D和3D模型能力的限制,但研究团队表示,未来对这些模型的改进将有望轻松应用于InseRF技术。团队计划在未来测试其他方法,包括改进阴影效果和提升生成物体及其环境质量的方法,以进一步推动该技术的发展。

InseRF技术的提出为生成式AI领域带来了新的可能性,为在3D场景中插入一致物体提供了一种创新的方法。随着技术的不断发展和改进,InseRF有望成为未来生成式AI领域的重要技术之一。

4、产品特色

5、应用领域

项目网址入口:https://top.aibase.com/tool/inserf

论文网址:https://arxiv.org/pdf/2401.05335.pdf

上一篇 下一篇

猜你喜欢

热点阅读