Google AI团队开发的蛋形LED房可捕捉人体3D模型
介绍之前先来看看效果:
在高清3D中捕捉人类表演是一项复杂的工作,其中许多挑战之一就是要正确设置照明。这项由Google研究人员完成的令人印象深刻的新项目将主题置于只能被描述为棱柱形LED蛋的中心,但由此产生的3D模型却非常出色-更重要的是可重新照明。
所谓的体积捕获使用360度设置中的多个摄像头来捕获看起来像对象的逼真的图像,包括衣服变形,头发移动等所有小细节。它有两个严重的缺点:首先,它更像是3D电影而不是模型,因为您不能摆姿势或改变他们的属性或衣服。第二个是第一个的扩展,因为您无法更改此人的照明方式-捕获他们时所拥有的任何灯光,这就是您所得到的。
Google的一个团队试图解决“第二个问题”,因为第一个问题已经深入人心。他们的系统不仅为运动中的人生成了非常详细的3D模型,还使该模型成为了现实。通过虚拟光源逼真地照明,可以将其放置在游戏,电影和其他照明可能改变的情况下。
上图是Google AI论文中的图像单独显示了捕获过程以及在明亮的虚拟环境中生成的3D模型。
生成的模型可以放置在任何虚拟环境中,而不是反射捕获的灯光,而是那个小世界的灯光。
澳大利亚举行的 ACM SIGGRAPH 亚洲展览会上,谷歌公开展示了 Relightables 系统:
Google的Relightables系统工作流程可分为三个部分:捕获,重建和渲染。首先,研究人员设计了一种新型的主动深度传感器,以捕获12.4MP深度图。然后,他们展示了如何设计混合几何和机器学习重构过程,以处理高分辨率输入并输出体积视频。接下来,他们使用以60 Hz获得的两个交替的颜色梯度照明图像中的信息来为动态表演者生成时间一致的照明图像。
我们来看下该系统的总体流程:
第一:原始图像将用于重建高质量 3D 模型
第二:对该网格进行下采样,随时间推移跟踪并进行参数化
最后:由两个梯度照明条件推断出反射率图
捕捉
该系统的核心依赖于具有多视点(有源)立体声深度传感器的光球镜平台,该传感器具有331个可编程灯和90个高分辨率的12.4MP重建相机。
用于捕获人体的摄像机包含32个红外(IR)摄像机和58个RGB摄像机。红外传感器提供准确,可靠的3D数据,并且RGB相机捕获高质量的几何法线贴图和纹理。这些摄像机以60 Hz的频率录制原始视频,研究人员基于球形渐变照明在两种不同的照明条件之间进行了交替
看看捕捉人体的深度传感器:
捕捉600帧(10秒)的图像会产生650GB的数据。对于每一部分,研究人员还记录了一个几何校正序列和一个50帧的clean-plate序列(即,没有人的阶段),后者用于在实际演出期间分割表演者。
重建
接下来,研究人员将数据上传到公共存储库。第一阶段是为每个“相机”生成深度图、分割图和三维网格[Kazhdan和Hoppe 2013]。
他们使用对齐算法来处理重建网格的序列,这样长的子序列可以共享公共三角剖分。研究人员提出了一种新的解决关键帧选择问题的方法,并将其转化为MRF推理问题。每个唯一的三角剖分都被参数化为一个普通的二维纹理空间,可以与共享三角剖分的所有帧共享。
渲染
每个栅格都有两个可用于生成反照率、法线、光泽度和环境光遮挡贴图的渐变球形照明图像。这些贴图与标准渲染引擎兼容,可用于在任何一组照明条件下重新生成渲染图像。
下面图像展示了 SAD 和 VGG 在基于 RGB 图像做立体匹配的效果,我们可以看到论文采用的 VGG 要提供更加平滑的结果。
从立体角度提取深度图像特征非常重要,虽然像VGG这样的深度模型功能非常强大,但在牛仔裤等质感较低的区域,它们还不够好。对于分割模块,研究人员使用深度学习将先验知识嵌入到CRF中,包括前景和背景的颜色和深度信息。
研究者提出的立体分割方法可以在手部篮球,这在单图像分割中是不可能做到的。
与Collet等人的最佳体积重建模型相比,研究人员复制了许多模块。
他们提出的分割方法与Collet等人提出的分割方法的比较。
方法如下所示。其中,研究人员的方法可以产生高质量的结果,Collet也可以生成非常满意的纹理网格,只是Collet缺少高频细节。
结论
谷歌的新系统可以完美地还原人物周围的光影效果,使合成图像看起来更逼真。通过与AR等技术的集成,该系统将捕获的人体无缝地集成到现实世界或电影、游戏等的数字场景中。它可能会彻底改变三维捕捉技术的领域。
论文源码下载地址:关注“图像算法”微信公众号 回复“3dled”