在 Python 中从头开始理解和构建目标检测模型
英文原文:https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/
对原文的表达有部分改动
介绍
当我们看到一张图片时,我们的大脑会立即识别出其中包含的物体。机器想要识别这些目标则需要大量时间和训练数据。但是随着硬件和深度学习的进步,这个领域变得更加容易和直观。
以下图为例。该系统能够以令人难以置信的准确度识别图像中的不同物体。
目标检测技术在各种不同的行业中得到了快速的采用。它可以帮助自动驾驶汽车安全地通过交通,在拥挤的地方发现暴力行为,帮助分析和建立侦察报告,确保制造中零件的适当质量控制,等等。对于信息化社会有着方方面面的用途。
在本文中,我们将了解什么是目标检测,并了解解决该领域问题的几种不同方法。然后我们将深入研究在 Python 中构建我们自己的目标检测系统。到本文结束时,您将拥有足够的知识来独自应对不同的目标检测挑战!
什么是目标检测?
在我们深入构建最先进的模型之前,让我们首先尝试了解什么是目标检测。让我们(假设)为自动驾驶汽车构建一个行人检测系统。假设您的汽车捕获了如下图所示的图像。你会如何描述这张图片?
汽车获取的图像
该图像基本上描绘了我们的车在一个广场附近,少数人正在我们车前过马路。由于交通标志不清晰,汽车的行人检测系统应准确识别人们行走的位置,以便我们避开他们。
那么汽车的系统可以做些什么来避免发生任何事故呢?它可以做的是围绕这些人创建一个边界框,以便系统可以确定这些人在图像中的位置,然后相应地决定要走哪条路,以避免发生任何事故。
标记行人
我们的系统有以下两个目标:
- 识别图像中存在的所有目标及其位置
- 过滤出需要关注的目标
目标检测问题的不同方法
既然我们知道我们的问题是什么,那么该如何解决呢?在本节中,我们将介绍一些可用于检测图像中目标的技术。我们将从最简单的方法开始。
方法一:天真的方式(分而治之)
我们可以采取的最简单的方法是将图像分成四个部分:
左上角 右上角 左下角 右下角
下一步是将这些部分输入到图像分类器中。这将为我们提供图像的该部分是否有行人的输出。如果是,请在原始图像中标记该补丁。输出将有点像这样:
标记分类成功的部分
这是一种思路,但我们还需要寻找一个更精确的系统。因为它需要识别整个目标,仅定位目标的一部分可能会导致灾难性的结果。
方法二:增加分割数
我们可以通过成倍增加输入系统的样本数量来改进它。我们的输出应该是这样的:
增加采样
我们的解决方案似乎比第一种好了一点,但它充满了许多近似相同事物的边界框。这是一个问题,我们需要一种更有条理的方法来解决我们的问题。
方法 3:执行结构化划分
为了以更结构化的方式构建我们的目标检测系统,我们可以按照以下步骤操作:
第 1 步:将图像分成 10×10 的网格,如下所示:
第 2 步:定义每个补丁的中心
第 3 步:对于每个中心,取三个不同高度和纵横比的不同补丁:
第 4 步:传递所有补丁到图像分类器以获得预测:
我们可以进一步进行改进!
方法 4:进一步改进(更有效率)
方法 3 在很大程度上是可以接受的,但是我们可以构建一个比这更有效的系统。
-
增加补丁分割颗粒度:我们可以将补丁分割的颗粒度从10设置为20:
网格尺寸20x20 -
取更多不同高度和纵横比的补丁而不是三个补丁:在这里,我们可以从单个锚点上取 9 个形状,即三个不同高度的方形补丁和 6 个不同高度的垂直和水平矩形补丁。这将为我们提供不同纵横比的补丁。
这两种方法都将帮助我们拥有更精细的颗粒度。但它会造成必须通过图像分类模型的所有补丁呈爆炸式增长。
我们能做的是,选择部分补丁而不是输入所有补丁。例如,我们可以构建一个中间分类器,尝试预测补丁是否真的有背景,或者可能包含一个目标。这将成倍地减少我们的图像分类模型必须看到的补丁。
我们可以做的另一种优化是减少正在描述“同样的事情”的预测。让我们再次获取方法 3 的输出:
如您所见,两个边界框预测基本上是同一个人。我们可以选择其中任何一个。因此,为了进行预测,我们在识别到可能描述同样目标的框时,选择最有可能检测到一个人的框。
方法 5:使用深度学习进行特征选择并构建端到端方法
深度学习在目标检测领域具有巨大的潜力。我在下面列出了几种方法:
- 我们可以通过神经网络传递原始图像来降低维度,而不是从原始图像中获取补丁
- 我们还可以使用神经网络来建议可选择的补丁
- 我们可以强化深度学习算法,以尽可能接近原始边界框进行预测。这将确保算法给出更紧密和更精细的边界框预测
现在,我们不再训练不同的神经网络来解决每个单独的问题,而是采用一个单独的深度神经网络模型来尝试自行解决所有问题。这样做的好处是,神经网络的每个较小组件都将有助于优化同一神经网络的其他部分。这将有助于我们共同训练整个深度模型。
我们的输出将为我们提供迄今为止所见的所有方法中的最佳性能,有点类似于下图。我们将在下一节中看到如何使用 Python 创建它。
如何使用 ImageAI 库构建目标检测模型
现在我们知道了什么是目标检测以及解决问题的最佳方法,让我们构建我们自己的目标检测系统!我们将使用 ImageAI,这是一个 Python 库,支持用于计算机视觉任务的最先进的机器学习算法。
运行目标检测模型来获得预测非常简单。我们无需通过复杂的安装脚本即可开始。我们甚至不需要 GPU 来生成预测!我们将使用这个 ImageAI 库来获得我们上面在方法 5 中看到的输出预测。
原图
from imageai.Detection import ObjectDetection
import os
execution_path = os.getcwd()
detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
custom_objects = detector.CustomObjects(person=True, car=False)
detections = detector.detectCustomObjectsFromImage(input_image=os.path.join(execution_path , "image.png"), output_image_path=os.path.join(execution_path , "image_new.png"), custom_objects=custom_objects, minimum_percentage_probability=65)
for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
print("--------------------------------")
下载预训练模型 – RetinaNet Pretrained model