deep learning - 3D视觉

3D视觉系列：PoseCNN

2018-09-20 本文已影响148人村上春竹

poseCNN

1 创新点

提出新的位置估计表示形式：预测2d图片中心和距离摄像头距离（利用图像坐标来推测实际3D坐标）。并且通过hough投票来确定物体位置中心。
提出新的姿态估计损失函数ShapeMatch-Loss：解决旋转对称物体姿态估计问题
提出新的数据集： YCB-Video dataset

2 论文思路

Net.png

上述是整个网络结构图

bodynet是vgg16，
网络的预测输出共有3个。语义分割分支，位置分支，姿态分支。。
位置分支：利用ISM 表示形式（ISM介绍）间接推测出，而非直接预测三维坐标XYZ值。
a) 投票.
b) 极大值抑制.
c) 设置阈值
姿态分支：采用四元数表示。对于每个类的每个roi，都预测一个结果。

3 训练过程

3.1 ShapeMatch-Loss

对于上述的每个分支，都有一个loss，一共有3个loss。同时，作者为了应对旋转对称物体的姿态迷惑性（即可以用多个四元数来表示一个姿态），作者提出了一个新的loss——ShapeMatch-Loss。

SLoss.png
M是代表3d模型空间中的点，

image.png

4.2 与baseline对比

baseline为3D coordinate 。

image.png

使用RGB作为输入，poseCNN明显性能更高。
使用RGB-D作为输入，使用ICP作为后处理能够明显提升性能。

上一篇下一篇

猜你喜欢

热点阅读