你拍的短视频竟被它“看懂”了?无理解,不AI
或许你还以为视频仅能依靠用户数据间接地进行理解,其实不然,“它”也可以……
每当你观看短视频的精彩内容时,可曾想过,这或许是你这一天距离AI最近的时刻?
也许你是互联网圈的业内人士或者互联网技术的爱好者,你会说:“知道啊,不就是智能推荐、分发系统吗?很多产品都有啊。”然而,AI对于短视频的应用仅限于此吗?
Of course not!事实上,从视频的录制,到视频的编码,从视频内容的理解,到用户画像的建模,从审核过滤,到分发推荐,AI几乎走完了每一个环节。其中,最让人意想不到的是,在视频理解环节,AI是用“看”的!
那么下面就为大家科普一下,共同揭开快手AI的神秘面纱!
“视频一直被视为计算机视觉里的暗物质。”谷歌云首席科学家、ImageNet发起人李飞飞曾这样描述,视频理解之难可想而知。为了更好的理解视频,我们通常会为它打好标签,下面是几种常见的方法:
发布者或审核人员人工添加标签:发布者添加标签不需要依赖算法技术,但容易出现未标注、弱标注和误标注的情况。而审核人员逐个标注视频,对于每日产生1500万条视频的快手来说,将会带来巨大的人力成本。
将视频看作黑盒,直接依靠用户行为数据进行推荐:比如,与你有着相似用户画像的人中,大多数都点赞了的某个视频,就把它直接推荐给你。这种方法不需依靠计算机视觉这种高难度技术,且能取得不错的效果,目前非常主流。
用户行为数据与视频内容理解相结合:也是快手正在使用的,更考验技术人员对“多模态”技术的理解(视频的多种模态可以理解为视觉、听觉、文本的综合信息形式),再加上用户行为数据也是另外一种模态的数据,所以理解短视频成了一种极为复杂的多模态问题。
那么,如此高深的视频理解技术是如何发展出来的呢?又将走向何方呢?且听我慢慢道来。
一切的一切,从认识事物开始——最初的它
为了让AI识别物体,科学家们可谓是煞费苦心,甚至为此建立了世界上最大的图像数据库——ImageNet,里面的每张图片都人为打好了标签,来让AI进行视觉训练。
在去年的ImageNet视觉识别挑战赛中,有八成参赛队伍的图像识别准确率超过95%。
别小看了这个基础的物体识别,实际上它大大丰富了短视频的趣味性!
其中,正是因为有了人脸关键点的识别,才有了“快手时光机”等众多魔法表情;正是因为有了肢体识别技术,才有了“跳舞机”有趣的魔法表情游戏;也正是因为有了对平面、边角的识别,才有了逼真的AR玩法。
今年乌镇的世界互联网大会上,快手科技的展台被围得水泄不通,人们都想体验一把“找到世界上另一个自己”的黑科技。
如图,体验者走到屏幕前,点击拍摄按钮,右边的屏幕上就会出现了一个与自己长相非常相似的人!并播放这段用户公开视频。
其实,这些数据是事先提取出来的,在用户将视频上传到服务器后,AI就会根据视频的内容进行理解,提取一些基本信息,包括面部的三维特征,另外,AI还会进一步分析,进而得出人脸的年龄、性别、甚至是颜值。
知晓你的忧,洞悉你的愁——现在的它
前面提到了AI对图像的物体识别有了巨大突破,那么一组图像和一个视频有什么差别吗?视频不就是由图片组成的吗?
其实两者之间是有区别的。
首先,视频的图像间是有时间顺序的,比如,运动的物体的通常具有特殊语义,把一组舞蹈动作图片分开来看,就很难知道这是什么舞,而识别物体的移动、变化对AI来讲不是一件易事。
再者,正如前面提到的,视频是多模态的,包括图像、人脸、音频、文本多个部分,AI需要对同一时刻的音频、视频等多个维度综合分析,才能形成更为“立体”的认知,而这对于技术人员又是巨大的挑战。
而为了丰富AI的认知,我们又不得不为它创立一套认知体系——知识图谱。
知识图谱可以理解为AI的“记忆”,图谱里面的每一个概念都不是简单的文本,而是立体的形象,比如一只小狗,在AI的印象里,会有它的大量照片,以及狗叫声,还会知道它爱吃骨头,这和我们人类对狗的记忆颇为一致,但是也存在着遗漏,像是触觉这种,目前无法达到。
在快手的知识图谱中,除了种类繁多的实体概念,还存在着高级的精神概念,如喜怒哀乐、亲情和爱情。
那么短视频是如何被读懂的呢?我们举个实际的例子,一场球赛的最后几分钟(视频):梅西带球破门,踢出关键一球,全场观众欢呼庆祝,解说员宣布比赛胜利。
在这个视频中,AI首先进行人脸识别,识别出梅西和其他球员;同时,场景识别和物体识别会确认“球场”和“足球”,确定这是场足球比赛;而在情绪识别上面,AI会通过观众的欢呼和球员的表情确定“喜悦、庆祝”的氛围;并且,解说员的语音,也会被读懂,更直观地理解视频里发生的内容(即便是非常嘈杂的比赛环境,聪明的AI也会智能地为其降噪)。
机器亦有“心”——未来的它
虽然目前的AI在情感层面的理解上,无法达到较高的准确性。但是,以现在的AI发展速度来看,相信在不远的将来,AI就会成为精神世界的一道风景线。
关于未来的AI(视频理解、视觉理解方向),我想到了未来可能发生的三种应用,一起来分享给大家:
率先发生的是无人驾驶,AI对于物体(尤其是运动的物体)可以无障碍识别,完美解决路况分析问题。
第二阶段是影评大师,AI对于人类的情感以及电影的艺术手法有了深刻的认识,可以做出权威的评价。
第三阶段是AI男/女朋友,各项人工智能技术发展成熟,相互融合,而计算机视觉不再是一个独立体,而更像是一个器官——“眼睛”,最终的AI成品可以作为我们的灵魂伴侣(完美解决我国男性的单身问题,笑)。
无论如何,AI的萌芽已经被种下了,到底会结出怎样的果实呢,相信大家也满怀期待吧,欢迎大家在评论区留言,说说自己心中未来的“它”!