Video Question Answering: Datase

2022-09-19  本文已影响0人  魔法少女玛格姬

论文地址:2203.01225v1.pdf (arxiv.org)

一篇VQA的综述

摘要

视频问题回答(VideoQA)旨在根据给定的视频回答自然语言问题。随着联合视觉和语言理解的最新研究趋势,它引起了人们的关注。然而,与imageQA相比,VideoQA在很大程度上没有被逐渐解散,并且进展缓慢。尽管已经不断提出了不同的算法,并在不同的VideoQA数据集上显示了成功,但我们发现缺乏有意义的调查来对它们进行分类,这严重阻碍了其进步。因此,本文为VideoQA提供了明确的分类学和全面的分析,重点是数据集,算法和独特的挑战。然后,我们指出了研究质量质量质量值的研究趋势,以推理质量质量质量吸引力的认知视频内容,最后,我们总结了一些有希望的未来探索方向。

Introduction

VQA的难点:需要对视频全面理解才能正确回答问题,包括但不限于识别对象,行动和活动以及其空间,时间和因果关系的推理。

目前数据集、定义任务和算法混乱,因此,本文为VideoQA提供了更全面和有意义的调查,目的是从过去学习并塑造未来。我们的主要贡献总结为以下内容。 (1)我们回顾了Factoid VideoQA和Inference VideoQA的最新方法。此外,我们提出了当前数据集的合理拆分,以进行清晰的算法比较:VideoQA,多模态VideoQA和知识VIDEOQA。 (2)我们提出了一种分类法,将现有的视频QA技术分类为:Memory, Transformer, Graphs, Modular Networks and NeuralSymbolic methods。此外,包括一些有意义的见解:Memory, Transformer, Graphs, Modular Networks and NeuralSymbolic methods (3)我们从各种VideoQA任务中遇到的挑战的角度分析了现有方法,并为未来的研究提供了有意义的见解。

VideoQA Task and Datasets

两种VQA问题,multi-choice QA和open-ended QA。multi-choice QA,会提供几个候选答案任模型选择。open-ended QA,问题可以是分类(most popular)或回归(counting)或生成(word by word),multi-choice QA倾向于因果推理,Open-ended QA倾向分类。

算法

主要框架

image.png

最近工作显示了object-level visual and semantic feature的重要性,这些特征通常使用预训练的2D和3D网络提取。


image.png

然后可以通过时序模型如RNN,CNN,Transformer进一步处理视觉和语言顺序,并引入跨模态特征融合,Multi-choice QA可以选择一个答案,open-ended QA则成为一个分类问题。video和language encoders 可以pre-trained or mo recently E2E finetuned,损失使用hinge loss或者交叉熵等。

Unique Challenges and Meaningful Insights

由于时间动态变化,现有的ImageQA很难扩展到VideoQA,与其他视频任务相比,Questionanswering是一种在不同方面和粒度上了解视频的综合方法,例如在时间和空间领域中从细粒度到粗粒,从FACTOID问题到推理问题。为了应对挑战,已经为跨模式互动做出了许多努力,该互动旨在在问题的指导下了解视频。我们总结了文献中常见的一些有意义的见解。

方法

Performance Analysis

我们根据流行的VideoQA基准报告的结果分析了表2中的FACTOID VIDEOQA的高级方法和表3中的推理VideoQA。表2显示,大规模视觉文本数据集上变压器式模型的跨模式预训练比那些不执行跨模式预训练的方法可以实现卓越的性能。通过专注于没有预训练的方法,图形结构化技术是最受欢迎的,并且也显示出巨大的潜力。探索VideoQA图形的跨模式预处理会很有趣。此外,我们发现分层学习和细粒对象功能通常有助于改善性能。
推理VideoQA是一项新生的任务,主要挑战时间和因果推理。与Factoid QA相比,它受到了较少的关注。然而,表3表明,图形结构的技术和神经符号推理是解决它的有前途的方法。虽然神经肌符号方法在模拟环境上表现出了巨大的成功,但扩展到现实世界中的情况仍然非常具有挑战性,因为它需要用于监督的功能计划。这样的功能程序很复杂,目前很难实践实现。根据Factoid VideoQA的跨模式预训练的良好表现,我们认为也有望探索推理视频QA的预训练,并且有足够的改进机会。


image.png
image.png

Future Direction

尽管最近的VideoQA方法取得了巨大的成功,但对于现实世界应用程序,差距仍然很大。我们就未来方向的任务和技术提供了以下几点。

结论

本文对VideoQA进行了全面的评论,涵盖了普通VideoQA,多模式视频的流行数据集和知识VideoQA。除数据集外,还讨论了既定的视频QA方法以及一些有意义的见解。我们终于总结了未来探索的几个有希望的方向。通过这些努力,我们强烈希望这项调查能够促进视频问答中的研究,并最终促进对强大的AI系统的努力,这些AI系统可以从整体上理解我们的动态视觉世界,并对人类的自然语言查询或指示做出有意义的回答。

上一篇 下一篇

猜你喜欢

热点阅读