DeepMind新论文:AI也有空间想象力 几张图片就脑补3D场
【导语】给你一个物体的主视图和俯视图,你需要多久时间去想象出它的3D原型并画出侧视图?DeepMind的新AI算法已经可以快速解决这一问题。
智东西6月15日消息,本周四,谷歌子公司DeepMind在Science上发表了新论文《Neural scene representation and rendering》。这篇论文介绍了一种新型计算机视觉算法,可以基于某个单一的平面图像,去从不同角度“想象”它的三维模型。
image该算法被称之为生成查询网络(GQN)。只需给人工智能一些二维场景图片,比如说一面砖墙、楼梯上的明亮球体和方块,人工智能就可以产生从不同角度观察这个场景的三维模拟图、渲染物体不同的面甚至解决相同光源下的阴影位置问题。
大多数视觉识别系统都需要人员标记数据集中每个场景中每个对象的每个方面,这是一个费时费力的过程。GQN项目旨在消除AI研究人标注数据集图像的需求,并复制人类大脑了解其周围环境和物体之间交互的方式。它的应用非常广泛,从机器人视觉到VR仿真,未来都有可能看见它的身影。
一、GQN:从场景中获取训练数据
GQN可以从任何角度组合和渲染一个物体或场景,与一般AI的工作方式有很大的不同。通常机器学习方法需要用数百万经过人类标注的图像作为样本集,但这个新的神经网络只需要几张平面图片就能完成学习任务。
具体而言,GQN可以分成两个部分:表示网络和生成网络。前者不知道生成网络需要预测哪些视角,通过从二维图像中提取一套用于描述场景的计算机代码;后者则可以输出对以前未观察到的角度或想象场景的预测。
image二、无监督学习:从新视角“想象”从未见过的场景
新算法使用无监督算法,学习行为和婴儿、动物十分相似。它通过尝试观察周围的世界来理解和学习,在学习过程中无需任何人员监督或培训,因为它有能力“想象”场景的另一边看起来像什么样子。
image为了训练这个系统,DeepMind的研究人员对GQN进行了受控测试。即从不同角度提供场景图像,让GQN学习这些物体的纹理、颜色和光照以及它们之间的空间关系。然后预测了这些物体其他角度。
结果发现,当研究团队去除或增加场景中的物体,或者改变部分物体的形状与颜色后,系统并不需要人类向它解释“形状”、“颜色”等词汇的概念,就能通过自主学习得到相应的结果。
“此前我们并不知道,神经网络能够以这样精确和可控的方式学习如何创建图像。“DeepMind的研究人员、论文第一作者Ali Eslami说道,“然而,我们发现足够深度的网络可以在没有人为干预的情况下学习透视和照明。这是一个超级惊人的发现。”
三、GQN算法的局限性与意义
这篇论文是一系列引人注目的DeepMind项目中的最新版本,DeepMind项目展示了人工智能系统以前无法预料的能力,一旦程序员们设定了基本参数,人工智能就可以自主学习。
去年10月份,DeepMind的AlphaZero,在发布了100场系列赛的不败纪录之后,能够在12月份击败备受赞誉的StockFish国际象棋项目。人工智能赢了28场比赛并打了72场比赛,在没有任何人为干预或任何帮助的情况下赢得了世界上最好的国际象棋程序大奖。上个月,另一个DeepMind AIi系统以与人类大脑完全不同的方式在迷宫中导航,在看到一系列不同角度的图片后,它可以模拟出迷宫的布局,从而找到走出迷宫的路径。诸如此类的任务相当令人影响深刻。
image如果将这套系统应用在机械臂的控制上,GQN仅需一个固定摄像头记录二维图像,就能获知机械臂的运动情况。在场景中移动时,系统会不断学习和会自我修正,定位和控制机械臂所需采集的数据量也大大减少。
然而,这项技术仍然存在其局限性。据研究人员说,GQN只在少量物体的相对简单的场景中进行过测试,因为它仍然缺乏能够生成更复杂的3D模型的能力。DeepMind正在开发更强大的系统,这些系统需要更少的处理能力和更小的语料库,以及可处理更高分辨率图像的框架。
Eslami表示:“虽然我们的算法在实践之前还有很多研究要完成,然后才能在现实世界中部署这种新型系统,但这项工作使我们离构建可自行学习场景理解更近了一步。”
技术的局限性并不影响这篇论文的进步意义。DeepMind开发了一种只依赖自身图像传感器的输入的系统,并在无监督情况下自主学习,这为未来人工智能开辟了新道路,即可以通过传感器自主观察和还原世界。
附:《A scene-internalizing computer program》论文摘要
场景表征,即将视觉传感数据转换为简洁描述的过程 ,是智能行为的需求之一。 最近的工作表明,当提供大量带标记的数据集时,神经网络在这项任务中表现突出。 但是,消除对人体标签的依赖仍然是一个重要的公开问题。 为此,我们介绍了生成查询网络(Generative Query Network,GQN),在这个框架中,机器学习如何仅使用自己的传感器来表示场景。 GQN将从不同视点拍摄的场景图像作为输入、构建内部表征,并使用此表示从以前未观察到的视点预测该场景的外观。 GQN演示了在没有人类标签或领域知识情况下的学习方式,为机器自主学习了解周围世界铺平了道路。
论文下载地址:http://science.sciencemag.org/content/360/6394/1204/tab-pdf