推荐几篇近期必看的视觉综述,含图像检索、目标检测、人脸关键点检测
编译 | CV君
报道 | OpenCV中文网(微信id:iopencv)
本篇为 1 月中下旬 CV 领域综述汇总,应用广泛,建议收藏。文末附打包下载。
图像检索
Deep Image Retrieval: A Survey
CBIR :基于内容的图像检索,本次调查对近期基于深度学习算法和技术开发的 CBIR作品进行了整理和回顾,包括近期论文的见解和技术。确定并介绍了该领域常用的数据库、基准和评估方法。收集了共同的挑战,并提出了有前景的未来研究方向。
更具体地说,专注于使用深度学习的图像检索,并根据深度网络结构的类型、深度特征、特征增强方法和网络微调策略来组织最先进的方法。
考虑了各种最新的方法,旨在促进基于类别的 CBIR 领域的全球视图。
作者 | Wei Chen, Yu Liu, Weiping Wang, Erwin Bakker, Theodoros Georgiou, Paul Fieguth, Li Liu, Michael S. Lew
单位 | 莱顿大学;国防科技大学;滑铁卢大学;芬兰奥卢大学
论文 | https://arxiv.org/abs/2101.11282
人脸关键点检测
Fast Facial Landmark Detection and Applications: A Survey
本篇文章是对现代基于神经网络的人脸关键点检测算法进行的全面调查。
作者 | Kostiantyn Khabarlak, Larysa Koriashkina
单位 | Dnipro University of Technology
论文 | https://arxiv.org/abs/2101.10808
遥感影像
A Review on Deep Learning in UAV Remote Sensing
本篇文章是对深度学习在无人机遥感中的应用综述。
主要关注于描述近期应用于无人机获取数据的分类和回归技术。对国际科学期刊数据库中发表的 232 篇论文进行了研究。
收集了已发表的材料,并评估了它们在应用、传感器和所用技术方面的特点。介绍了 DL 在处理基于无人机的图像数据的相关任务中如何呈现出有希望的结果并具有潜力。并对未来研究作了预测。
作者 | Lucas Prado Osco, José Marcato Junior, Ana Paula Marques Ramos, Lúcio André de Castro Jorge, Sarah Narges Fatholahi, Jonathan de Andrade Silva, Edson Takashi Matsubara, Hemerson Pistori, Wesley Nunes Gonçalves, Jonathan Li
单位 | University of Western São Paulo等
论文 | https://arxiv.org/abs/2101.10861
剪枝 & 量化
Pruning and Quantization for Deep Neural Network Acceleration: A Survey
深度神经网络应用广泛,在计算机视觉领域所取得的成绩非凡。但复杂的网络架构对高效的实时部署提出一个难题,需要大量的计算资源和能源成本。应对方案可以通过网络压缩等优化解决。
本篇文章就是对两种类型的网络压缩(剪枝和量化)进行综述。作者对当前的技术进行了比较,分析其优缺点,为压缩网络提供指导,并讨论了未来可能的压缩技术。
作者 | Tailin Liang, John Glossner, Lei Wang, Shaobo Shi
单位 | 北京科技大学;Huaxia GPT等
论文 | https://arxiv.org/abs/2101.09671
文本到图像合成
Adversarial Text-to-Image Synthesis: A Review
在本次调查中,作者结合背景介绍了对抗式文本到图像合成模型的技术现状、以及自五年前创始以来的发展情况,并提出一个基于监督水平的分类法。
严格审查了当前评估文本到图像合成模型的策略,强调了不足之处,并确定了新的从开发更好的数据集和评估指标到架构设计和模型训练的可能改进研究领域。
本篇综述是对之前关于生成式对抗网络调查的补充,重点是文本到图像合成。
作者 | Stanislav Frolov, Tobias Hinz, Federico Raue, Jörn Hees, Andreas Dengel
单位 | 凯泽斯劳滕工业大学;DFKI等
论文 | https://arxiv.org/abs/2101.09983
弱监督学习+人脸表情识别
Weakly Supervised Learning for Facial Behavior Analysis : A Review
本文,作者介绍了各种类别的弱监督学习方法,并提供了基于各种标注模式的面部行为分析方法的分类学。
对与WSL相关的最先进方法进行了全面回顾,并对结果进行了比较评估。还进一步提供了关于现有方法的局限性和相关挑战的见解。
并根据以上分析提出了潜在的研究方向,以促进 WSL 框架下面部行为分析的未来发展。
作者 | Gnana Praveen R, Eric Granger, Patrick Cardinal
单位 | LIVIA
论文 | https://arxiv.org/abs/2101.09858
目标检测
Occlusion Handling in Generic Object Detection: A Review
本文针对室外和室内场景中一般目标检测中的遮挡处理挑战进行了探讨,并参考了近期为解决这些挑战所做的工作。还对未来可能的研究方向进行的讨论。
作者 | Kaziwa Saleh, Sándor Szénási, Zoltán Vámossy
单位 | Óbuda University
论文 | https://arxiv.org/abs/2101.08845
车速估计
Vision-based Vehicle Speed Estimation for ITS: A Survey
现有的车辆速度精确检测技术中,基于视觉的系统的使用给人们带来了巨大的挑战,同时也带来了巨大的潜在优势,比如由于没有昂贵的测距传感器,成本大幅降低,并且可以精确识别车辆。
本次调查对基于视觉的车辆速度估计进行了回顾。包括术语、应用领域,并提出了一个完整的分类法,在大量作品中对所涉及的所有阶段进行了分类。提供了性能评估指标和可用数据集的概述。最后,讨论了当前的局限性和未来的方向。
作者 | David Fernández Llorca, Antonio Hernández Martínez, Iván García Daza
单位 | 阿尔卡拉大学;Joint Research Center
论文 | https://arxiv.org/abs/2101.06159
视频摘要
Video Summarization Using Deep Neural Networks: A Survey
视频摘要技术的目的是通过选择视频内容中信息量最大的部分来创建一个简明完整的概要。在过去的几十年里,已经开发出了几种方法,目前的技术水平以依靠现代深度神经网络架构的方法为代表。
本工作重点介绍该领域的最新进展,并对现有的基于深度学习的通用视频摘要方法进行了全面的调查。
在介绍了视频摘要技术发展的动机后,制定了视频摘要任务,并讨论了典型的基于深度学习的分析 pipeline 的主要特征。
然后,提出现有算法的分类法,并对相关文献进行了系统的回顾,展示了基于深度学习的视频摘要技术的发展历程,并引出了未来发展的建议。报告了客观评估视频摘要算法的协议,比较了几种基于深度学习的方法的性能。基于这些比较的结果,以及一些关于评价协议的适用性的文献考虑,指出了未来潜在的研究方向。
作者 | Evlampios Apostolidis, Eleni Adamantidou, Alexandros I. Metsai, Vasileios Mezaris, Ioannis Patras
单位 | 伦敦玛丽女王大学等
论文 | https://arxiv.org/abs/2101.06072
视觉问答
Recent Advances in Video Question Answering: A Review of Datasets and Methods
本次调查中,对一些用于 VQA 任务的方法和数据集进行全面回顾。
作者 | Devshree Patel, Ratnam Parikh, Yesha Shastri
单位 | Ahmedabad University
论文 | https://arxiv.org/abs/2101.05954
医学影像
A survey on shape-constraint deep learning for medical image segmentation
本次调查,作者对近期关于为医学图像分割带来解剖约束的文献进行了广泛的概述,对所提出方法的缺点和机会进行了深入的讨论,并阐述了未来潜在的工作。
作者 | Simon Bohlender, Ilkay Oksuz, Anirban Mukhopadhyay
单位 | 达姆施塔特工业大学;伊斯坦布尔科技大学;伦敦国王学院
论文 | https://arxiv.org/abs/2101.07721
图像字幕
Diagnostic Captioning: A Survey
诊断性字幕(DC)是指从检查过程中收集到的一组病人医学图像中自动生成诊断性文本。DC可以帮助没有经验的医生,减少临床错误。它还可以帮助有经验的医生更快地生成诊断报告。
随着深度学习的进步,特别是在通用图像字幕方面,DC最近吸引了更多的关注,一些系统和数据集陆续出现。
本文是对 DC 的广泛概述。介绍了相关的数据集、评估方法和最新的系统。它还强调了阻碍 DC 进展的不足之处,并提出了未来的发展方向。
作者 | John Pavlopoulos, Vasiliki Kougia, Ion Androutsopoulos, Dimitris Papamichail
单位 | 斯德哥尔摩大学等
论文 | https://arxiv.org/abs/2101.07299
Applications of Deep Learning in Fundus Images: A Review
在本篇调查中,作者介绍了 143 篇应用论文,并精心设计了层次结构。还介绍了33 个公开的数据集,对每个任务都进行了总结和分析。最后,揭示了所有任务共同的局限性,并给出了可能的解决方案。
作者还创建一个 github 库,以定期更新最先进的成果和新发布的数据集,以适应该领域的快速发展。
作者 | Tao Li, Wang Bo, Chunyu Hu, Hong Kang, Hanruo Liu, Kai Wang, Huazhu Fu
单位 | 南开大学;首都医科大学;IIAI
论文 | arxiv.org/abs/2101.0986
代码 | nkicsl/Fundus_Review
详解 | 基于深度学习的眼底影像分析最新综述
A Survey and Analysis on Automated Glioma Brain Tumor Segmentation and Overall Patient Survival Prediction
本篇文章旨在调查 Glioma(胶质瘤)脑肿瘤分割自动化方法的进展。
作者 | Rupal Agravat, Mehul S Raval
单位 | Ahmedabad University
论文 | https://arxiv.org/abs/2101.10599
图像分类
Deep Learning for Scene Classification: A Survey
为帮助研究人员掌握该领域所需的进展,本篇文章的目标是对使用深度学习的场景分类最新成果进行全面调查。其中包含 260 多篇版物,涵盖场景分类的不同方面,包括挑战、基准数据集、分类法以及所评方法的量化性能比较。
在文章最后作者还列出了一个有前景的研究机会。
作者 | Delu Zeng , Minyu Liao , Mohammad Tavakolian , Yulan Guo , Bolei Zhou , Dewen Hu , Matti Pietikäinen , Li Liu
单位 | 华南理工大学;芬兰奥卢大学;中国人民解放军国防科技大学;中山大学;香港中文大学
论文 | https://arxiv.org/abs/2101.10531
Hyperspectral Image Classification -- Traditional to Deep Models: A Survey for Future Prospects
从传统模型到深度模型的高光谱图像分类,未来前景调查
本次调查系统性地概述了用于 HSIC 的 DL ,并比较了该主题最先进的方法策略,概述了传统机器学习在 HSIC 上的主要挑战。
将最先进的 DL 框架分为光谱特征、空间特征和空间-光谱特征,系统地分析这些框架在 HSIC 方面的成就(以及未来的方向)。此外,还将考虑到 DL 需要大量的标注训练实例,而 HSIC 的训练实例的获取在时间和成本上都具有挑战性。因此,本调查讨论了一些提高 DL 策略泛化性能的策略,可以为未来提供一些指导。
作者 | Sidrah Shabbir, Muhammad Ahmad
单位 | KFUEIT;NUCES
论文 | https://arxiv.org/abs/2101.06116
图像分类+持续学习
Online Continual Learning in Image Classification: An Empirical Survey
为更好地了解近期提出的在线 CL 方法的相对优势,以及它们工作得最好的设置,在 OCI和 ODI 的设置中用 9 种方法和 7 种技巧进行了广泛的实验。
目的是:
(1)比较最先进的方法,如MIR、iCARL 和 GDumb,并确定哪种方法在不同的实验设置下工作得最好;
(2)确定最好的类增量方法在领域增量设置中是否也具有竞争力;
(3)评估 7 种简单但有效的技巧,如 "review "技巧和最接近类平均(NCM)分类器的性能,以评估它们的相对影响。
关于 OCI 环境下的性能(见表8,图2和图3),得出以下结论:
1、对于无内存方法,LwF 在 CIFAR100 和MiniImageNet 中是有效的,显示出与小内存缓冲区的基于 replay 的方法相似的性能。然而,所有的无内存方法在较大的 CORe50-NC 中失败。
2、当内存缓冲区较小时,iCaRL 在 CIFAR100 和 Mini-ImageNet 中表现出最好的性能(以较大的幅度),其次是 CNDPM。
3、在更大的内存缓冲区,GDumb——一个简单的基线——在 CIFAR100 和Mini-ImageNet 中优于专门为 CL 问题设计的方法,但代价是需要更长的训练时间。
4、在更大、更真实的 CORe50-NC 数据集中,MIR 在不同内存大小的情况下始终超越所有其他方法。
5、从实验和理论上证实,CF 的一个关键原因是由于之前数据和新数据之间的不平衡,在最后一个完全连接层中偏向于新类。
6、由于上述偏差,所有方法都没有显示出任何正向和反向迁移。
对 OCI 技巧的结论如下(见表9,图4):
1、 当内存容量较小时,LB 和 NCM 最为有效,相对改善率约为 64%;
2、当内存缓冲区较大时,NCM 仍然有效,而 RV 则更为有效,相对改善率约为80%。
3、当配备 NCM 或 RV 时,ER 和 MIR 都可以在没有技巧的情况下超越比较方法的最佳性能。
4、NCM 和 RV 的运行时间随着内存大小的增长而增加,但其他技巧只是增加了固定的运行时间开销。
对于 ODI 环境(见表11,图5),得出结论:
1、一般来说,所有基于 replay 的方法(ER、MIR、GSS)在三种内存大小的情况下都表现出相当的性能,并且优于其他所有方法。
2、GDumb,在大多数情况下主导 OCI 环境的强基线不再有效,可能是由于其内存更新策略。
3、其他 OCI 方法不能泛化到 ODI 环境中。
总结:在线 CL 现在正在接近离线性能,使 CL 更接近与离线训练相匹配的最终目标,打开了 CL 在边缘和其他 RAM 限制设备上的有效部署。
作者 | Zheda Mai, Ruiwen Li, Jihwan Jeong, David Quispe, Hyunwoo Kim, Scott Sanner
单位 | 多伦多大学;LG AI Research
论文 | https://arxiv.org/abs/2101.10423
1月上半月的总结在这里:
推荐几篇近期必看的视觉综述,含GAN、Transformer、人脸超分辨、遥感等
- END -