毕业论文《单摄像机下基于深度学习的视频信息结构化》
1、论文研究的主要内容:
这里的视频信息的结构化是指对于视频中多目标序列的追踪并且提取,这里有bounding box的提取方式和mask的提取方式,然后再实现视频中多个目标序列的关联,从而实现具体的目标序列的提取,这里包括目标进入镜头的时间(frame)、地点(site),离开镜头的时间(frame)、地点(site)。
在提取多目标序列是涉及到MOT问题,也就是多目标跟踪问题,只有把这个问题解决了,能够在单摄像头中提取出多目标序列,才能进行后期的工作。这里就要对多目标跟踪问题进行深入的研究。
这里需要设立合适的数据库,实现对特定目标序列的存储、管理和查找,以及对序列最优化的提取。
1. 特定数据集的制作
录制特定场景下的视频,提取视频中特定的行人图片序列,制作序列的数据集。
视频录制需要分成两种情况:
(1)当单个行人行走时,录制单人的序列图片,作为单个身份的数据集制作。
(2)对于多人较小重叠行走时,录制的数据作为实际情况下测试数据集。中间可能出现行人的重叠情况,这种情况下,检测到的目标可能只是整体的一部分,对于这种情况应该加以考虑,在不跟丢目标的情况下,提取出目标序列,并且自动找到最为完整的图片,作为这一个序列的最佳匹配图片。
这里也就相应的产生了两个工作:
- 单摄像头下单个目标序列的自动检测和提取
视频中含有大量的帧,如果人自动手工标定每个数据,是个非常大的工作量,在这种情况下摄像头中出现的人物目标较为单一,可以通过现有的算法如Faster R-CNN,也可以针对具体的场景设计处高效的目标提取模型,实现每一帧目标的bounding box 或者mask的提取,这里对速度的要求不是很高,但是对精确度要求高,能够准确的找出每帧图像的目标具体位置。 - 单摄像头单目标的视频信息结构化处理软件
这里为了能够更好的管理视频以及其中单个目标的提取工作,需要设计一个自动化的处理软件,实现对数据的筛选和处理,把具有多目标或者目标不够清晰的视频片段剔除掉,截取那些我们需要的视频片段信息。然后在这些信息中提取出我们需要的目标。 - 多摄像头同一目标的匹配工作
因为是多个摄像头同时录制,行人从一个摄像头走入另外一个摄像头中,需要进行匹配,让他们成为同一目标序列。
到这里,都是视频的制作,即使多个摄像头连接起来,也是为了采集单个目标跟多的行为序列。也是为了后期模型的训练提供较好的数据。
2. 多目标的跟踪以及序列信息的提取
数据集提供好了,就需要进入实际的运用环节,这里就是多目标的追踪、目标序列的提取以及再识别的问题。
这里就需要考虑下面的几个问题:
- 多目标追踪的准确性问题
在实际的场景下,肯定会出现多目标、目标之间相互遮挡的情况,甚至出现漏帧、漂移以及误检的情况,这就对多目标跟踪的鲁棒性提出更高的要求,能够实时的检测目标并且实现目标的关联,这个至关重要。 - 多目标提取序列中某些序列的不完整性问题
多目标很可能出现遮挡的问题,被遮挡的这些目标在提取的bounding box只是完整目标的一部分,如何提取这一系列的目标,并且从中找到信息最丰富的目标,为后期跨摄像头的再识别做准备,是一个值得考虑的问题。
3.多摄像头结构化管理软件
能够实现每个视频中多目标序列的自动提取,并且寻找出信息量最大的图片作为带匹配图片。
然后将多个摄像机之间连接在一起,实现目标之间的匹配。
这里的匹配可以是多级匹配,先进行时间信息的匹配,再进行衣物颜色特征的匹配,筛选之后再进行更加细致的再识别。这样可以大大简化那些明显匹配的目标,只对难以匹配的目标进行更加深入的匹配过程。
然后通过结构化的管理软件实现摄像头的调用以及目标信息的提取。