1秒钟100帧的行人检测

2018-01-03 本文已影响46人韦德爱老詹

毕业设计的外文翻译Pedestrian detection at 100 frames per second，并结合部分自己的理解进行整理。

特征提取

基于“积分通道特征”的思想，是简单的矩形特征在给定的图像区域上对滤波响应进行求和。对于行人检测，它显示使用6个量化方向，1个梯度幅值和3个LUV颜色通道来获得最新的结果。

论文贡献

1.目标检测没有使用图像尺寸改变。
2.使用stixels的目标检测。

实现方法

传统方法

一个明确的类对象检测器产生正确数量的对象实例，包括它们的位置和尺寸。最常用的对象检测器为滑动窗口类型。

我们训练尺度N分类器，数量通常是大约50个，但训练50个模型似乎是一项艰巨的任务。传统的多尺度物体检测方法以规范模型尺寸训练单个模型，然后重新调节图像N次。

在规模调整的图像上使用规范模型尺度的检测等同于不同尺度上的检测。这种传统的方法已被证明是有效的，但是它带来了两个问题：

1.训练规范的规模是微妙的，因为人们需要找到最佳的规模，并学习一个将在丰富的高分辨率尺度和模糊的低分辨率尺度之间进行权衡的模型。
2.在运行时，需要调整输入图像50次，重新计算图像特征50次。

FPDW

FPDW方法核心的内容在于相邻尺度的特征响应可以足够精确近似。

每次调整图像计算图像特征，然后这些图像特征在保持的N-N/K的尺度上轮流被用作接近特征响应。通过减小图像调整的数量和通过特征值K（大约为10）的特征计算，总的检测次数显著减少。

近似描述如下：

新的方法

核心观点是把调整图片尺寸时间从测试时间移到训练时间。

强分类器由一组决策树建立而成，每个决策树都包括三个树桩分类器。每个树桩分类器由信道索引，在这样的信道上的矩形和决策阈值τ定义。当用一个相对比例因子s来重新缩放一个树桩时，我们保持信道指数不变，通过s来缩放矩形，并更新阈值。

在测试时间上，我们使用所描述的近似方法将我们的N / K分类器转换成N分类器（每个规模一个），我们计算原始输入图像上的积分信道特征，然后使用N分类器计算每个尺度的响应。

利用几何先验知识

基于处理密集立体深度图的常见方法是不行的，因为生成100Hz的深度图本身就是一个挑战。相反，我们遵循Benenson等人的方法。其中地面以上的物体使用所谓的“stixel世界模型”（stixel≈伸出在图像的地面以上）建模。对于图像中的每一列，底部像素，顶部像素和估计距离（未分类）的物体。这种方法的关键特征是，可以直接从立体图像中估计stixel世界模型，而无需计算完整的深度图。