deep learning - 3D视觉

3D视觉系列:PoseCNN

2018-09-20  本文已影响148人  村上春竹
poseCNN

1 创新点

2 论文思路

Net.png

上述是整个网络结构图

  1. bodynet是vgg16,
  2. 网络的预测输出共有3个。语义分割分支,位置分支,姿态分支。。
  3. 位置分支:利用ISM 表示形式(ISM介绍)间接推测出,而非直接预测三维坐标XYZ值。
    a) 投票.
    b) 极大值抑制.
    c) 设置阈值
  4. 姿态分支:采用四元数表示。对于每个类的每个roi,都预测一个结果。

3 训练过程

3.1 ShapeMatch-Loss

对于上述的每个分支,都有一个loss,一共有3个loss。同时,作者为了应对旋转对称物体的姿态迷惑性(即可以用多个四元数来表示一个姿态),作者提出了一个新的loss——ShapeMatch-Loss。

SLoss.png
M是代表3d模型空间中的点, image.png

4.2 与baseline对比

baseline为3D coordinate 。


image.png

使用RGB作为输入,poseCNN明显性能更高。
使用RGB-D作为输入,使用ICP作为后处理能够明显提升性能。

上一篇 下一篇

猜你喜欢

热点阅读