CSRNet: Dilated Convolutional Ne

2019-09-27  本文已影响0人  _从前从前_

一、简介

解决拥堵场景的的人群计数方法从简单的人群统计(仅输出目标图像的人数)到以输出密度图(显示人群分布特征)作为结果。这种发展趋势是为了满足更多场景下的需求,因为同样数量的人群可能拥有完全不同的分布方式,因此仅仅计算出人群数量是不够的,密度图可以帮我们获得更加准确和全面的信息,这对于在高风险环境中做出正确的决策非常重要,如踩踏时间和暴动事件。之前的拥堵场景解决方法主要是基于多尺度的网络结构,例如MCNN。它们具有不错的性能,但是它们的这种多尺度设计在网络更庞大的同事也带来了两个显著缺点:大量的训练时间和无效的分支。MCNN采用多列网络的主要原因是希望通过使用不同尺寸的卷积核去获得不同的感受野。简单来说,MCNN希望每一列能够解决不同拥堵程度的场景。
但是,通过我们的测试,似乎MCNN并没有达到它期望的效果。我们用下图来说明MCNN中三个分离列学习到(表示大,中,小感受野)的特征,并用ShanghaiTech Part A 数据集对其进行评估。这个图中的三条曲线在50个具有不同拥堵程度的测试用例得到了相似的结果(错误率),这意味着在这种分支结构中的每一列学习了几乎相同的特征。它违背MCNN设计的初衷。

image.png

因此我们设计了CSRNET,用于计算人群密度并且生成高质量的密度图。使用了VGG-16的前十个层作为网络前端,空洞卷积作为后端,以获得更大的感受域并提取更深层次的特征,并且不会分辨率。通过利用这种创新结构,我们胜过了最先进的人群统计解决方案(基于MCNN的解决方案称为CP-CNN),在数据集ShanghaiTechA,ShanghaiTechB,UCF CC 50 和WorldExpo'10中,其平均MAE分别降低了7%,47.3%,10.0%和2.9% 。此外,我们在UCSD数据集上实现了以1.16 MAE的高性能。在将这项工作扩展到TRANCOS数据集的车辆计数之后,我们实现了比当前最佳方法(称为FCN-HA [24])低15.4%的MAE。

二、相关工作

人群场景分析的潜在解决方法主要可以分为三类:基于检测、基于回归和基于密度估计。

三、建议的解决方案

提出的基本设计思想是采用更深的CNN网络,用于获得更大的感受野和更深层次的特征,生成高质量的密度图,并且不会扩大网络的复杂度。本节主要介绍网络架构和训练方法。

3.1、CSRNet架构

使用了VGG-16的前十个层作为网络前端,该前端网络的输出尺寸是原始输入尺寸的1/8,空洞卷积作为后端。

3.2、训练方法

四、实验

4.1、评价指标

MAE和MSE。

4.2、消融实验

采用ShanghaiTechA数据集进行消融实验。这是一个新的大规模人群统计数据集,包括482张图片拥挤的场景,总共241667个人。由于场景非常拥挤,视角不同,分辨率不固定,从这些图像中算起来非常具有挑战性。比较了不同CSRNet结构的性能。


image.png

4.3、评估和比较

五、结论

在本文中,我们提出了一种名为CSRNet的新型体系结构,用于人群统计和高质量密度图生成,并具有易于训练的端到端方法。我们使用膨胀的卷积图层来聚合拥挤场景中的多尺度上下文信息。通过利用扩张的卷积层,CSRNet可以在不损失分辨率的情况下扩大接受范围。我们使用最先进的性能在四个人群计数数据集中演示了我们的模型。我们还将我们的模型扩展到车辆计数任务,我们的模型也达到了最佳精度。

六、更多示例

左边原图,中间真是标签,右边密度图。


image.png
image.png
image.png
image.png
image.png
上一篇 下一篇

猜你喜欢

热点阅读