Paper Reading

PanoRoom

2020-03-10  本文已影响0人  喵小七的喵

PanoRoom: From the Sphere to the 3D Layout

本文为原文翻译,原文链接https://arxiv.org/abs/1808.09879

Abstract

我们提出了一种新颖的FCN,它能够处理全向图像,并输出代表室内场景主要结构的准确概率图,从而能够对不同数据进行归纳。我们的方法可以处理遮挡,并恢复形状更复杂的房间,使其更符合真实场景的实际形状。 我们不仅在3D模型的准确性方面,而且在速度方面都优于最新技术。

1 Introduction

恢复混乱的室内场景的3D布局问题可以追溯到计算机视觉的早期,知道现在仍然是一个核心研究课题,因为它是增强和虚拟现实,室内导航,SLAM和机器人技术等几个新兴应用市场中的一项关键技术。尽管见证了采用几何和深度学习技术的透视图在布局恢复方法上的飞速发展,但向全向视觉的扩展仍然受到限制。全景图像打破了此任务的性能障碍。 PanoContext 首次将用于透视图的框架扩展到全景图。他们既恢复了假定为3D框(4面墙)的布局,又恢复了房间内主要对象的边界框。出于抛弃简单盒子假设的动机,有人通过几何和深度学习结合得到的结构角,通过几何推理生成布局假设。最新的工作是LayoutNet,它通过训练具有全景图和消失线的网络来获得边缘和拐角图,从而生成3D布局模型。

在这里,我们提出了一个全卷积神经网络(FCN),它可以解决来自全景图的3D布局恢复问题,并且具有以下贡献:首先,我们介绍一种使用ResNet-50(在ImageNet上进行预训练)作为骨干的全卷积网络结构。 我们包括一个可以共同预测边角和角图的解码器,与现有技术相比,它需要更少的参数和计算时间,同时还能提高准确性。 尽管绝大多数图像都标记为4面墙房间,但我们的网络可以预测房间解决方案,而无需再假设箱型房间,我们可以从中得出几何上一致的房间布局。 我们的3D模型优于标准基准数据集上的现有方法。

2 Deep learning structure perception

所提出的FCN遵循编码器-解码器结构,并基于ResNet50。 我们用解码器代替最终的全连接层,该解码器可以共同预测已经确定的布局边缘和拐角位置。 我们在图1中说明了该结构。每个全景图的ground truth(GT)包括两个概率图。 一个代表房间的边缘,另一个代表房间的拐角位置。 如果每个像素包含结构信息,那么它的值为1;如果它是背景,那么它的值为0。由于像素的自然分布是不平衡的,例如95%是背景,因此我们使用了线加粗和高斯模糊来使得模型训练更容易收敛。相反,类似的方法通常需要将GT分成不同的类。

编码器。 面对布局恢复问题的大多数深度学习方法都使用VGG16作为编码器。 取而代之的是,有人在ResNet-101之上建立了他们的模型,其性能超过了现有技术。 在这里,我们提出在ImageNet数据集上进行预训练的ResNet-50,由于从ImageNet学习到的一般低级特征,导致收敛更快。 残差网络使我们能够增加深度,而无需增加参数的数量。 在ResNet-50中,这导致捕获的接收域为483x483,足以满足我们的输入分辨率128x256。

解码器。 最近的工作为多任务学习建立了两个输出分支,这导致更多的计算时间和更多的参数。 相反,我们建议一个唯一的分支,其输出具有两个通道,角和边缘图,这有助于增强两种图类型的质量。 在解码器中,我们结合了两个不同的想法。首先,从编码器到解码器的跳过连接。 具体来说,我们将“向上卷积”特征与收缩部分中的相应特征连接起来。其次,我们将不同的分辨率进行初步的预测,并将它们连接起来并反馈给网络,见图1。

损失函数。 边缘图和拐角图是通过按像素的Sigmoid交叉熵损失函数学习的。由于我们先验地知道这些图的边缘和角点标签分布极不平衡,因此我们引入了考虑因素r1和r0。其中1和0分别是正类别和负类别,并且rc = N/Nc,即N是像素的总数,Nc是类别c的像素数量。总的sigmoid交叉熵损失是每像素损失的平均值:

对于每个像素i,其中y是GT,^ y是预测的图,S是Sigmoid函数。

受其他论文的启发,我们还定义了一种感知损失函数,用于测量图像之间的高级感知差异。我们使用与主网络结构相同的自动编码器,并训练该自动编码器对GT进行编码。 除了鼓励输出图像^ y与目标图像y完全匹配外,我们还鼓励它们具有相似的特征表示。因此,将y作为GT并将I作为输入图像

其中faij是自动编码器在第j个隐藏层上的特征图 ,而在我们网络上是^ faij。

3 Layout recovery

虽然深度学习方法已经显示出巨大的成功并提供了对场景的更深入的了解,但仅靠其输出并不具有几何约束和先验性,因此其效果不佳。 因此,我们利用FCN输出,通过在“曼哈顿世界”假设下优化深度学习线索来产生几何上一致的房间布局,其中存在定义场景的三个正交主方向​​。 在这里,我们不再将场景假定为4面墙。 透视图像中的线和消失点(VP)提取已得到令人满意的解决,因此,许多使用全景图的方法都对透视子视图进行了采样,以利用它们,从而增加了计算时间。 最近,一些方法提出了直接在全景图上获取线和VP的方法,从而提高了该方法的整体效率。 在这里,我们使用RANSAC方法已经证明比其他方法更快。 每条提取的线与由其在边缘图中占据的像素的概率之和给出的概率相关联。这允许删除概率为0的那些行,从而导致精确行的最佳子集,这使我们的建议能够以很少的布局假设获得最终结果。为了充分利用我们的网络输出,我们将结构线相交以获得用角图评分的候选角。参见图2。布局生成过程遵循[2]的想法,但是我们使用不同的近似来选择最佳的假设解决方案。让我们将每个布局假设定义为检索到的边缘和拐角的组合

我们将它们与它们在相应的预测边缘和拐角图中占据的像素的概率总和相关联,每个像素的概率分别为Pedge和Pcorner。 通过这种方式,我们选择了使这两个信息源之间的匹配最大化的布局,

其中we和wc是权重,具有同样的重要性。

4 Experiments

上一篇下一篇

猜你喜欢

热点阅读