在 Python 中从头开始理解和构建目标检测模型

2021-12-02 本文已影响0人砥砺前行的人

英文原文：https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/
对原文的表达有部分改动

介绍

当我们看到一张图片时，我们的大脑会立即识别出其中包含的物体。机器想要识别这些目标则需要大量时间和训练数据。但是随着硬件和深度学习的进步，这个领域变得更加容易和直观。

以下图为例。该系统能够以令人难以置信的准确度识别图像中的不同物体。

目标检测技术在各种不同的行业中得到了快速的采用。它可以帮助自动驾驶汽车安全地通过交通，在拥挤的地方发现暴力行为，帮助分析和建立侦察报告，确保制造中零件的适当质量控制，等等。对于信息化社会有着方方面面的用途。

在本文中，我们将了解什么是目标检测，并了解解决该领域问题的几种不同方法。然后我们将深入研究在 Python 中构建我们自己的目标检测系统。到本文结束时，您将拥有足够的知识来独自应对不同的目标检测挑战！

什么是目标检测？

在我们深入构建最先进的模型之前，让我们首先尝试了解什么是目标检测。让我们（假设）为自动驾驶汽车构建一个行人检测系统。假设您的汽车捕获了如下图所示的图像。你会如何描述这张图片？

汽车获取的图像

该图像基本上描绘了我们的车在一个广场附近，少数人正在我们车前过马路。由于交通标志不清晰，汽车的行人检测系统应准确识别人们行走的位置，以便我们避开他们。

那么汽车的系统可以做些什么来避免发生任何事故呢？它可以做的是围绕这些人创建一个边界框，以便系统可以确定这些人在图像中的位置，然后相应地决定要走哪条路，以避免发生任何事故。

标记行人

我们的系统有以下两个目标：

识别图像中存在的所有目标及其位置
过滤出需要关注的目标

目标检测问题的不同方法

既然我们知道我们的问题是什么，那么该如何解决呢？在本节中，我们将介绍一些可用于检测图像中目标的技术。我们将从最简单的方法开始。

方法一：天真的方式（分而治之）

我们可以采取的最简单的方法是将图像分成四个部分：

左上角

右上角

左下角

右下角

下一步是将这些部分输入到图像分类器中。这将为我们提供图像的该部分是否有行人的输出。如果是，请在原始图像中标记该补丁。输出将有点像这样：

标记分类成功的部分

这是一种思路，但我们还需要寻找一个更精确的系统。因为它需要识别整个目标，仅定位目标的一部分可能会导致灾难性的结果。

方法二：增加分割数

我们可以通过成倍增加输入系统的样本数量来改进它。我们的输出应该是这样的：

增加采样

我们的解决方案似乎比第一种好了一点，但它充满了许多近似相同事物的边界框。这是一个问题，我们需要一种更有条理的方法来解决我们的问题。

方法 3：执行结构化划分

为了以更结构化的方式构建我们的目标检测系统，我们可以按照以下步骤操作：
第 1 步：将图像分成 10×10 的网格，如下所示：

等分为10x10网格

第 2 步：定义每个补丁的中心
第 3 步：对于每个中心，取三个不同高度和纵横比的不同补丁：

第 4 步：传递所有补丁到图像分类器以获得预测：

我们可以进一步进行改进！

方法 4：进一步改进（更有效率）

方法 3 在很大程度上是可以接受的，但是我们可以构建一个比这更有效的系统。

增加补丁分割颗粒度：我们可以将补丁分割的颗粒度从10设置为20：

网格尺寸20x20
取更多不同高度和纵横比的补丁而不是三个补丁：在这里，我们可以从单个锚点上取 9 个形状，即三个不同高度的方形补丁和 6 个不同高度的垂直和水平矩形补丁。这将为我们提供不同纵横比的补丁。

这两种方法都将帮助我们拥有更精细的颗粒度。但它会造成必须通过图像分类模型的所有补丁呈爆炸式增长。

我们能做的是，选择部分补丁而不是输入所有补丁。例如，我们可以构建一个中间分类器，尝试预测补丁是否真的有背景，或者可能包含一个目标。这将成倍地减少我们的图像分类模型必须看到的补丁。

我们可以做的另一种优化是减少正在描述“同样的事情”的预测。让我们再次获取方法 3 的输出：

如您所见，两个边界框预测基本上是同一个人。我们可以选择其中任何一个。因此，为了进行预测，我们在识别到可能描述同样目标的框时，选择最有可能检测到一个人的框。

方法 5：使用深度学习进行特征选择并构建端到端方法

深度学习在目标检测领域具有巨大的潜力。我在下面列出了几种方法：

我们可以通过神经网络传递原始图像来降低维度，而不是从原始图像中获取补丁
我们还可以使用神经网络来建议可选择的补丁
我们可以强化深度学习算法，以尽可能接近原始边界框进行预测。这将确保算法给出更紧密和更精细的边界框预测

现在，我们不再训练不同的神经网络来解决每个单独的问题，而是采用一个单独的深度神经网络模型来尝试自行解决所有问题。这样做的好处是，神经网络的每个较小组件都将有助于优化同一神经网络的其他部分。这将有助于我们共同训练整个深度模型。

我们的输出将为我们提供迄今为止所见的所有方法中的最佳性能，有点类似于下图。我们将在下一节中看到如何使用 Python 创建它。

如何使用 ImageAI 库构建目标检测模型

现在我们知道了什么是目标检测以及解决问题的最佳方法，让我们构建我们自己的目标检测系统！我们将使用 ImageAI，这是一个 Python 库，支持用于计算机视觉任务的最先进的机器学习算法。

运行目标检测模型来获得预测非常简单。我们无需通过复杂的安装脚本即可开始。我们甚至不需要 GPU 来生成预测！我们将使用这个 ImageAI 库来获得我们上面在方法 5 中看到的输出预测。

原图

from imageai.Detection import ObjectDetection
import os

execution_path = os.getcwd()

detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
custom_objects = detector.CustomObjects(person=True, car=False)
detections = detector.detectCustomObjectsFromImage(input_image=os.path.join(execution_path , "image.png"), output_image_path=os.path.join(execution_path , "image_new.png"), custom_objects=custom_objects, minimum_percentage_probability=65)


for eachObject in detections:
   print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
   print("--------------------------------")

下载预训练模型 – RetinaNet Pretrained model