深度估计:DepthFormer(有两篇深度估计任务都叫Dept

2023-01-20  本文已影响0人  Valar_Morghulis

Depthformer : Multiscale Vision Transformer For Monocular Depth Estimation With Local Global Information Fusion

https://arxiv.org/abs/2207.04535

https://github.com/ashutosh1807/Depthformer

基于注意力的模型(如Transformer)在密集预测任务(如语义分割)上表现出出色的性能,因为它们能够捕获图像中的长距离依赖性。然而,迄今为止,Transformer对单目深度预测的益处很少被探索。本文在室内NYUV2数据集和室外KITTI数据集上对用于深度估计任务的各种基于Transformer的模型进行了基准测试。我们提出了一种新的基于注意力的架构,用于单目深度估计的Depthformer,该架构使用多头自注意力来生成多尺度特征图,这些特征图由我们提出的解码器网络有效地组合。我们还提出了一个Transbins模块,该模块将深度范围划分为每个图像的中心值自适应估计的仓。估计的最终深度是每个像素的仓中心的线性组合。Transbins模块在编码阶段使用变换器模块利用全局感受野。在NYUV2和KITTI深度估计基准上的实验结果表明,我们提出的方法在均方根误差(RMSE)方面分别提高了3.3%和3.3%。

上一篇 下一篇

猜你喜欢

热点阅读