在 Python 中从头开始理解和构建目标检测模型

2021-12-02  本文已影响0人  砥砺前行的人

英文原文:https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/
对原文的表达有部分改动

介绍

当我们看到一张图片时,我们的大脑会立即识别出其中包含的物体。机器想要识别这些目标则需要大量时间和训练数据。但是随着硬件和深度学习的进步,这个领域变得更加容易和直观。

以下图为例。该系统能够以令人难以置信的准确度识别图像中的不同物体。


目标检测技术在各种不同的行业中得到了快速的采用。它可以帮助自动驾驶汽车安全地通过交通,在拥挤的地方发现暴力行为,帮助分析和建立侦察报告,确保制造中零件的适当质量控制,等等。对于信息化社会有着方方面面的用途。

在本文中,我们将了解什么是目标检测,并了解解决该领域问题的几种不同方法。然后我们将深入研究在 Python 中构建我们自己的目标检测系统。到本文结束时,您将拥有足够的知识来独自应对不同的目标检测挑战!

什么是目标检测?

在我们深入构建最先进的模型之前,让我们首先尝试了解什么是目标检测。让我们(假设)为自动驾驶汽车构建一个行人检测系统。假设您的汽车捕获了如下图所示的图像。你会如何描述这张图片?


汽车获取的图像

该图像基本上描绘了我们的车在一个广场附近,少数人正在我们车前过马路。由于交通标志不清晰,汽车的行人检测系统应准确识别人们行走的位置,以便我们避开他们。

那么汽车的系统可以做些什么来避免发生任何事故呢?它可以做的是围绕这些人创建一个边界框,以便系统可以确定这些人在图像中的位置,然后相应地决定要走哪条路,以避免发生任何事故。


标记行人

我们的系统有以下两个目标:

目标检测问题的不同方法

既然我们知道我们的问题是什么,那么该如何解决呢?在本节中,我们将介绍一些可用于检测图像中目标的技术。我们将从最简单的方法开始。

方法一:天真的方式(分而治之)

我们可以采取的最简单的方法是将图像分成四个部分:


左上角 右上角 左下角 右下角

下一步是将这些部分输入到图像分类器中。这将为我们提供图像的该部分是否有行人的输出。如果是,请在原始图像中标记该补丁。输出将有点像这样:


标记分类成功的部分

这是一种思路,但我们还需要寻找一个更精确的系统。因为它需要识别整个目标,仅定位目标的一部分可能会导致灾难性的结果。

方法二:增加分割数

我们可以通过成倍增加输入系统的样本数量来改进它。我们的输出应该是这样的:


增加采样

我们的解决方案似乎比第一种好了一点,但它充满了许多近似相同事物的边界框。这是一个问题,我们需要一种更有条理的方法来解决我们的问题。

方法 3:执行结构化划分

为了以更结构化的方式构建我们的目标检测系统,我们可以按照以下步骤操作:
第 1 步:将图像分成 10×10 的网格,如下所示:

等分为10x10网格

第 2 步:定义每个补丁的中心
第 3 步:对于每个中心,取三个不同高度和纵横比的不同补丁


第 4 步:传递所有补丁到图像分类器以获得预测

我们可以进一步进行改进!

方法 4:进一步改进(更有效率)

方法 3 在很大程度上是可以接受的,但是我们可以构建一个比这更有效的系统。

  1. 增加补丁分割颗粒度:我们可以将补丁分割的颗粒度从10设置为20:


    网格尺寸20x20
  2. 取更多不同高度和纵横比的补丁而不是三个补丁:在这里,我们可以从单个锚点上取 9 个形状,即三个不同高度的方形补丁和 6 个不同高度的垂直和水平矩形补丁。这将为我们提供不同纵横比的补丁。


这两种方法都将帮助我们拥有更精细的颗粒度。但它会造成必须通过图像分类模型的所有补丁呈爆炸式增长。

我们能做的是,选择部分补丁而不是输入所有补丁。例如,我们可以构建一个中间分类器,尝试预测补丁是否真的有背景,或者可能包含一个目标。这将成倍地减少我们的图像分类模型必须看到的补丁。

我们可以做的另一种优化是减少正在描述“同样的事情”的预测。让我们再次获取方法 3 的输出:


如您所见,两个边界框预测基本上是同一个人。我们可以选择其中任何一个。因此,为了进行预测,我们在识别到可能描述同样目标的框时,选择最有可能检测到一个人的框。

方法 5:使用深度学习进行特征选择并构建端到端方法

深度学习在目标检测领域具有巨大的潜力。我在下面列出了几种方法:

现在,我们不再训练不同的神经网络来解决每个单独的问题,而是采用一个单独的深度神经网络模型来尝试自行解决所有问题。这样做的好处是,神经网络的每个较小组件都将有助于优化同一神经网络的其他部分。这将有助于我们共同训练整个深度模型。

我们的输出将为我们提供迄今为止所见的所有方法中的最佳性能,有点类似于下图。我们将在下一节中看到如何使用 Python 创建它。


如何使用 ImageAI 库构建目标检测模型

现在我们知道了什么是目标检测以及解决问题的最佳方法,让我们构建我们自己的目标检测系统!我们将使用 ImageAI,这是一个 Python 库,支持用于计算机视觉任务的最先进的机器学习算法。

运行目标检测模型来获得预测非常简单。我们无需通过复杂的安装脚本即可开始。我们甚至不需要 GPU 来生成预测!我们将使用这个 ImageAI 库来获得我们上面在方法 5 中看到的输出预测。


原图
from imageai.Detection import ObjectDetection
import os

execution_path = os.getcwd()

detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
custom_objects = detector.CustomObjects(person=True, car=False)
detections = detector.detectCustomObjectsFromImage(input_image=os.path.join(execution_path , "image.png"), output_image_path=os.path.join(execution_path , "image_new.png"), custom_objects=custom_objects, minimum_percentage_probability=65)


for eachObject in detections:
   print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
   print("--------------------------------")

下载预训练模型 – RetinaNet Pretrained model

上一篇下一篇

猜你喜欢

热点阅读