3D重建

Pix2Vox论文阅读

2019-11-15  本文已影响0人  FantDing

title: Pix2Vox论文阅读
date: 2019-11-06 21:12:22
tags:


论文原文《Pix2Vox: Context-aware 3D Reconstruction from Single and Multi-view Images》

Abstract

Introduction

相关工作

Single-view 3D Reconstruction

Multi-view 3D Reconstruction

Method

Overview

Network architecture

Pix2Vox-F参数少,Pix2Vox-A更精确;主要差别在于Pix2Vox-F少了refiner部分,也就少了RLoss; 卷积核大小也有细微差别

Pix2Vox-F Pix2Vox-A

3.2.1 Encoder

3.2.2 Decoder

3.2.3 Context-aware Fusion

作者相信不同视角出来的vox,都是object's canonical view[物体的正则视图],只是vox在view看到的部分会恢复的更好, Context-aware Fusion Module负责融合这些最可信的部分

Context-aware Fusion

3.2.4 Refiner

3.2.5 Loss Function

loss function

这里的N是所有vox个数

4 Experiments

4.1 Datasets and Metrics

Dataset

Evaluation Metrics

可以看成3D IOU

Metrics

4.2 实验细节

4.3 合成图片的重建结果

4.4 真实世界图片重建结果

4.5 Reconstruction of Unseen Objects

4.6 消融实验

Context-aware fusion

Refiner

随着视角的增多, Refiner的效果越不明显

4.7 复杂度

image

4.8 讨论

Conclusion and Future Works


  1. 3D-R2N2

  2. 看图片也只有3张呀,哪里来的long term memory

  3. 作者说“To the best of our knowledge, it is the first time to exploit context across multiple views for 3D reconstruction.”,但个人觉得应该不会是第一次吧,怎么可能之前的结构都不考虑融合多视角呢?

  4. 应该不是使用RNN,那是怎么做的呢?

  5. 为什么强调这两点?全是椅子的图片?

  6. 为什么只使用single view?

  7. 这是什么意思?REAL-WORLD images不是使用Pix3D dataset吗?

  8. 什么玩意,如何work的?

  9. what

上一篇下一篇

猜你喜欢

热点阅读