Re:从零开始的行人重识别(一)
绪言
马上研二要开题了,提前通过blog的方式先把研究思路理清楚,也算是重新温习一下学习过程中遇到的问题吧,希望能给自己带来一些新的思路,同时帮助一些刚刚接触reID的同学入门(虽然应该没什么人会看),如有勘误可以提出来,我会及时改正的。
什么是行人重识别?
行人重识别的是属于计算机视觉下的重要的也是当前比较困难的任务。它主要要解决问题是如何在不同的摄像头下找到相同的一个人,这种问题其实可以看做是一个图像检索的问题,即是通过一张行人在一个摄像头下的图像(或视频)作为检索目标,在其余摄像头中找到与之最相似的行人。
为什么需要行人重识别?
主要是由于当前用于行人检测的摄像头大多是固定位置的局限性,当行人离开摄像头后,就无法继续追踪新摄像头下的行人,当行人重识别与行人检测技术相结合后,就可以弥补缺陷。行人重识别广泛应用于智能视频监控、智能安保等领域。
行人重识别问题的难点
- 在监控摄像头下的人脸往往模糊无法看清,因此不能直接使用人脸的信息作为识别的特征。
- 不同的摄像头下因光照、行人的尺寸、行人的姿态,行人的朝向的不同,导致行人不能只靠颜色、轮廓等信息进行重识别。
- 当前的行人重识别模型的泛化能力还有所欠缺,在一个数据集上训练的数据无法在另一个数据集上也有较好的表现。
行人重识别常用数据集介绍
Market1501
Zheng L, Shen L, Tian L, et al. Scalable person re-identification: A benchmark[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1116-1124.
2015年清华大学整理并提出,采集自6个摄像头(其中5个高清摄像头和1个低清摄像头)。Market1501包含了12,936张训练(train)图像,3,368张查询(query)图像,以及19,732张图库(gallery)图像,数据集包含1501个ID,其中训练集包含751个ID的图像,图库集包含750个ID的图像。
DukeMTMC-reID
Ristani E, Solera F, Zou R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]//European Conference on Computer Vision. Springer, Cham, 2016: 17-35.
2017年Duke大学提出,采集自8个不同的摄像头,是DukeMTMC数据集的子集,DukeMTMC-reID包含了16,522张训练图像,2,228个查询图像,以及17,661张图库图像,数据集包含1404个ID,其中训练集包含702个ID的图像,图库集包含702个ID的图像。
下载链接提取码:bhbh
CUHK03
Li W, Zhao R, Xiao T, et al. Deepreid: Deep filter pairing neural network for person re-identification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 152-159.
2014年香港中文大学大学提出,采集自10个不同的摄像头,CUHK03包含了13164 张图像,数据集包含1360个ID,其中有1160个ID属于训练集,100个ID属于验证集,100个ID属于测试集。
下载链接提取码:rhjq
评价指标
Rank-n
搜索结果中top-n张图有正确结果的概率。
例如: query image为 m1 ,在大小为100的gallery中搜索。
如果识别结果是 m1 、m2、m3、m4、m5……,则此时rank-1的正确率为100%,rank-2的正确率也为100%,rank-5的正确率也为100%;
如果识别结果是m2、 m1 、m3、m4、m5……,则此时rank-1的正确率为0%,rank-2的正确率为100%,rank-5的正确率也为100%;
如果识别结果是m2、m3、m4、m5、 m1 ……,则此时rank-1的正确率为0%,rank-2的正确率为0%,rank-5的正确率为100%
最后求得多个query的Rank-n取平均值。
CMC
全称为Cumulative Match Characteristic,将一个摄像头采集的图像用作查询集,将其余摄影机采集的图像用作图库集。对于图库集,为每个ID随机采样一张图像。对于查询集,将使用所有图像,获取每个图像的CMC曲线,这里的CMC曲线就是Rank-n与Accuracy的关系曲线,然后对它们进行平均。重复此评估过程100次,并将平均值提交为最终结果。
mAP
能够反应query image在gallery中所有正确的图片排在检索列表前面的程度,能更加全面的衡量ReID算法的性能。假设query image在gallery中有4张待查询图像,在检索的列表中排序分别为1、2、5、7,则ap为(1/1 + 2/2 + 3/5 + 4/7)/4=0.793。ap较大时,检索结果都相对靠前,最后对所有query的ap取平均值得到mAP。