极光开发者大会:Video++张奕谈人工智能与消费级视频分析
2018年11月17日,首届极光开发者大会在深圳召开,本次大会由国内领先的移动大数据服务平台——极光大数据举办,近千位互联网公司技术领袖、合作伙伴、开发者齐聚一堂,围绕大数据、人工智能、移动开发等广受关注的热点话题,共同探讨移动开发的下半场,构建健康的开发者生态。
Video++ AI实验室负责人张奕博士作为人工智能分论坛的重要嘉宾出席本次大会,并发表《人工智能在消费级视频分析中的应用》的主题演讲。
人工智能在消费级视频分析中的应用
主讲人:Video++AI实验室负责人 张奕博士
大家好,我是Video++智能网络科技AI实验室的张奕。今天想给大家分享的是人工智能在消费级视频分析领域中的应用。
首先给大家解释一下什么是消费级视频。消费级视频主要是跟工业级视频区分来讲的。工业级视频主要是专业人员通过专业设备采集的视频,大家最经常看到的工业级视频就是监控视频。相对而言,消费级视频是我们平时用手机或其他便携式图像采集设备生成和制造的视频。由于制作简单、传播容易,消费级视频的体量是非常大的。如果可以利用人工智能技术在消费级视频中发掘出一些内容,它的商业应用价值可以说是非常大的。
Video++作为国内最大的深耕于消费级视频领域AI技术的公司,主要专注于消费级视频中AI的技术研发和产业落地。我们主要从事的工作是在消费级视频中识别出相关内容,通过数据结构化,在各个不同维度对消费级视频的内容进行识别,从而在时间、空间位置上对出现的目标进行定位。
1. 消费级视频分析领域的技术构架
首先介绍一下视频文娱行业的一些基本概况。视频文娱行业主要有两大实体:视频流量平台和视频观众。视频流量平台经过了几轮发展,从有线电视到视频点播平台,再到直播平台和短视频平台,这其中出现了很多风口,但他们都面临一个痛点,就是如何利用视频流量实现变现和盈利;对视频观众来说,他们每天花费大量的时间观看互联网视频,有着与视频进行更好地互动的需求。
正是基于以上两点需求,Video++希望成为视频文娱产业里的超级服务提供者,既为视频流量平台提供相应的视频变现工具,也给终端客户提供一种视频互动工具。
截止到目前,Video++已经与国内头部流量平台建立了深度合作,同时积累了大约60%的视频用户。由此,我们获得了大量视频流量数据,并为AI算法提供了必要的支撑。
在Video++的主要技术构架里,最核心的就是AI算法。通过AI算法,我们可以输出视频中所出现目标的时间、空间等信息,包括它们的类别标签。在AI算法的基础上,我们包了一层VideoOS,也就是视频操作系统。视频操作系统基于底层的AI算法提供数据,从而为上层应用提供接口,继而便可以在这个操作系统上开发出广告、电商等各种不同的应用。
那么AI是怎么服务于视频内容识别的呢?我们首先从数据开始,这里主要涉及视觉数据。视觉数据主要有几类:最基础的是图像,其次还有视频,视频又分为工业级视频和消费级视频。Video++主要专注于消费级视频领域。
消费级视频的第一个特点是数据规模大。据思科统计,截止到2015年,互联网传输的数据中有70%为视频数据,到2020年,这个比例将达到80%。而相比于专业级视频,消费级视频由于制作简单、传输容易,体量相比专业级视频来说是占据绝对优势的;消费级视频的第二个特点是类别来源多样。广义的消费级视频包括像电影、电视剧、综艺、直播、短时频、广告等等;消费级视频的第三个特点是场景非常复杂,这是跟第二个特点是相辅相成的。消费级视频中经常出现一些复杂场景,如镜头切换和缩放、特效植入、光照变化、模糊、遮挡、旋转等。这些因素都为消费级视频的内容识别提出了更高的要求。
消费级视频的这些特点对系统提出了几个要求:一、处理速度快;二、准确率高。
根据消费级视频的特点,我们设计了一个消费级视频内容识别的总体框架,主要分为五个步骤:第一个为视频输入层,第二个为视频处理层,第三个为内容提取层,第四个为语义融合层,第五个为数据输出层。其中,内容提取层是最核心的识别步骤。
最终,我们会输出一个结构化识别结果数据,它主要包括视频基本信息和目标轨迹列表。目标轨迹列表又分为起始帧号、轨迹长度等时间标签,目标坐标列表等空间标签,目标类别标签等内容标签以及识别结果置信度。
2. 消费级视频分析的识别维度
我们目前可以识别人脸、场景、地标、物体、logo、情绪、动作、声音等多维度内容。作为补充,我们还做了视频内容的检索。
在人脸识别的算法结构里,输入视频之后,首先要做视频的预处理,也就是镜头分割。完成镜头分割之后再进行内容提取,对于人脸识别来说,内容提取主要是人脸检测框的获取和人脸ID的识别。人脸检测框的获取又分为人脸检测和人脸跟踪。为了兼顾准确率和速度,我们一开始要对人脸在全局范围内做一个检测,检测完之后再进行跟踪。跟踪时,我们会在跟踪框周围小区域里做一个局部检测,从而对人脸检测进行校正。之后是人脸对齐和质量评估。质量评估在视频识别当中是非常重要的,因为视频中有很多冗余数据会干扰结果。在质量评估之后,我们对质量比较好的采样进行提取和特征比对。比对完之后,所有特征会生成一个识别label,这个label就属于某一个人。在整个采样序列上,每一帧都会有一个识别结果,为了将这个识别结果融合,我们创立了一个融合机制。
在场景识别的算法结构里,也需要对输入视频进行镜头的分割采样。跟人脸识别不同的是,它不需要做全序列的采样,可能只做一个时间间隔的采样。在场景识别中,需要在前期对视频做初分类,比如是古装场景还是现代场景。做完预处理之后,进入到卷积神经网络阶段。卷积神经网络通过对不同的数据集进行预训练,得到不同的特征表述,最后把这些特征进行融合降维处理。得到最终的特征表示之后,我们会对不同场景进行分类处理:比如高频场景、次级场景和新增场景分别有不同的处理方法。最后,我们会对识别结果进行融合。
在物体和logo的算法结构里,需要多尺度对特征进行提取,然后根据特征变化进行采样,最后对特征进行融合。在这个算法里,要加入几个新的东西,比如要识别物体轨迹,肯定要对它进行跟踪;而关注的物体类别,也需要进行结果优化。
在地标识别的算法结构里,主要分为三步:一是通过基础网络对输入图片进行一个特征图提取,可以通过ROI Pooling, PCA白化等方式得到高维的特征描述,后续还可以用kNN, MR等方式对特征描述进行后处理。此外,我们还可以通过数据增强的方式,对得到的特征进行增强。我们自主研发的算法主要做了以下优化:首先是对基础网络进行多层的特征提取并且融合;除此之外,我们还提取了一个多分辨率、多尺度的一个特征,可以在不同的特征通道上进行加权。
下面介绍一下视频检索,也就是以图搜视频的流程。首先,我们通过视频下载、数据库存储、特征提取,特征排序等生成一个离线的特征表示数据库。当用户的需求过来之后,我们对用户输入的图片视频进行特征提取、比对排序和结构展示,这是一个标准的检索流程。
在算法结构方面,用户输入之后,我们经过神经卷积网络和索引得到初检索的结果,再通过细检索进行排序查询,最后输出镜头信息。另外,我们也可以通过剧目和视频等信息进行子部检索,减少搜索的任务压力,同时提高算法准确率。
除了算法之外,我们还进行了一些工程化。在工程化过程中,我们主要解决了几个问题:首先是对算法进行并行化,加速其运行;其次是应对高并发状况,解决分布式系统和多任务调度的问题;之后是资源调度,对算法进行分割和 CPU+GPU配比;最后是高优先级任务处理策略。
3. 消费级视频分析的解决工具——灵眸系统
下面介绍一下视频结构化的整体解决工具——灵眸系统。这个灵眸系统主要有几个功能:接收用户上传的视频、对上传的视频进行分析、实时展示分析结果。除此之外,灵眸系统的另一大功能是样本管理。我们首先进行了原始样本收集,之后用原始样本进行训练,得到初始模型并上线。上线后,我们可以利用人工对错误的输出进行审核、标注,从而用于改进这个模型。
灵眸系统的一个主要应用场景是AI情景营销平台(ASMP)。它主要用于帮助广告商在对流量平台上进行广告投放。AI情景营销平台不仅支持低层的语音信息,还可以支持一些高层领域,如情景。一个情景当中往往有很多的语义元素,如场景、物体、人脸等等,不同的低层语义可以组合出很多的高层情景。广告商所关注的是对应商品在对应视频中出现的情景,而灵眸系统可以帮助它自动寻找视频中跟对应商品对应的情景,去做自动化投放。
另一个应用场景是AI内容审核平台(ACAP)。内容审核主要分为几个方面:智能监黄、智能鉴暴、政治敏感人物识别和涉毒涉政明星。目前,视频中敏感因素的识别主要是通过人工来做的,需要消耗很大人力。因此,对于视频平台来说,都有利用AI技术替代一部分人力做内容审核的需求。虽然我们现有的AI识别技术还不能完全取代人工,但假定我们的AI识别技术可以达到90%,至少就可以替换大部分人类的工作。
4. 数据对于AI的重要性
最后我想强调一下数据对AI的重要性。数据是AI的生命,可以说,没有数据就没有AI,任何的AI算法都是建立在数据之上的。
我们在设计AI算法的过程中应当思考这么一些问题:
1. 什么样的训练数据是比较好的数据?
2. 常规数据操作有哪些?
3. 如何获取“高效”的数据?
4. 数据管理工具的巨大作用?
我今天的分享就到这里,谢谢大家。
关于极光
极光(纳斯达克股票代码:JG)成立于2011年,是中国领先的移动大数据服务平台。极光专注于为移动应用开发者提供稳定高效的消息推送、即时通讯、统计分析、社会化组件和短信等开发者服务。截止到2018年9月份,极光已经为36.9万移动开发者和99.1万款移动应用提供服务,其开发工具包(SDK)安装量累计近174亿,月度独立活跃设备近10.3亿部。基于海量数据和洞察积累,极光已将业务拓展至大数据服务领域,包括精准营销(极光效果通)、金融风控、市场洞察以及商业地理服务(极光iZone)。极光将继续借助人工智能与机器学习为移动大数据赋能,致力于为社会和各行各业提高运营效率,优化决策制定。