图像识别使图片变成短句，已达认知心理学水平

2017-10-30 本文已影响0人 23294680fe2b

【嵌牛导读】如何能让计算机具有类似人的视觉感官能力和理解能力，涉及到具象和抽象信息的转化，目前的工作进展或许代表了未来的发展方向。

【嵌牛提问】计算机怎样能够把图片信息转化为抽象的语言信息？

【嵌牛鼻子】图像识别算法

转载自新浪科技

图像识别使图片变成短句，已达认知心理学水平

【嵌牛正文】2017未来科学大奖颁奖典礼暨未来论坛年会在京举办。在计算机科学人工智能研讨会上，斯坦福大学终身教授、谷歌云首席科学家李飞飞称，通过图像识别技术将图像“变”短句，这与认知心理学实验结果“非常接近”。

　　李飞飞认为，视觉是人类发展的重要基石，在过去的几亿年中，不同生物的视觉系统不断发展，至今已成为人类大脑中最复杂的系统。在计算机识别领域，视觉系统同样是重要研究，各国专家在视觉识别方面发明了众多技术，近8年时间，视觉识别的错误率已降低了10倍。

　　“在2012年，我们了解到了GPU技术以及深度识别技术，帮助世界发展”，李飞飞说，人工智能的发展对视觉研究作用明显。近期，专家们开始预测，根据视觉化语言模式，了解不同体积下的关系，甚至去了解不同物体间的位置和动作关系，“这是量化研究，用更丰富的方法来了解世界”。

　　图像识别是如何了解物体的呢？

　　李飞飞举例称，一张照片，通过视觉识别技术，后台可以分析出众多标签，通过不同标签、不同属性、不同关系来描述物体，而数据库和信息集，可以做到更精准的研究。

　　“大家都用过百度和谷歌搜索图片”，李飞飞说，当你输入一个男人时，图片搜索结果很丰富，当搜索一只狗时，同样会获得丰富结果，但当你输入“一个坐着的男人牵着一只狗”时，结果却大相径庭，甚至很不理想。

　　李飞飞认为，这主要取决于算法差异。目前绝大多数算法，在搜索图像时还是使用物体本身信息，只是简单了解图中有何物体。若加入更多属性，那么结果会更好，“我们在探索新方法，比如一个长句，放到数据库中，与图像进行对比，通过这种算法可以得到更好更精准的结果”。

　　目前，图像识别领域的成果是通过场景图，可以提供4层的分析结果，从而获得更多信息，“但这些是不够的，到目前我们只探索了认知心理学家讨论的概念”，李飞飞说道。

　　她以一名美食家的视频举例。视频中，美食家在做饭时，放入了不同调料，通过图像识别技术，这些图像下方就出现了描述短语。

　　李飞飞表示，目前可以将图像变成短句，从而出现更多内容，“这与认知心理学的实验结果是非常接近的”。

　　以下为李飞飞演讲实录：

　　谢谢主持人，谢谢未来论坛科学大奖的邀请，再次回到我出生的地方，特别荣幸有这么多顶级的科学家聚在一起，讨论一些非常有意思，也会对未来有很大的影响的问题和学科。

　　今天我给大家带来的是最近的一些研究思路，今天我的演讲内容是关于视觉智能，动物世界当中有很多物种，而且有一种非常了不起，绝大多数动物都有眼睛，因此视觉是最为重要的一种感观的方法和认知方法，这是在动物的大脑当中，帮助动物在世界当中生存下来进行沟通，去操控和生存。

　　所以我们无论是讨论动物智能或者是机器智能的话，视觉是非常重要的基石。世界上所存在的这些系统当中，最为了解的一点是我们所知道的人类视觉系统。所以在5亿多年前的时候，这个进化已经不断地让我们的视觉系统不断地发展，使得我们的视觉系统非常重要的去理解这个世界，而且这是我们大脑当中最为复杂的系统，而且有50%的大脑当中的这些认知的单位，都有着最为复杂、最为高级的感知系统，所以能够让我们知道人类的视觉系统非常了不起。

图像本身，但是我们所输出的信息包括物体的位置以及物体之间的关系。当然这个领域有一些前期工作，但是绝大多数工作都是比较有限的。获得数据和物体之间的关系信息比较有限。

　　最近我们的实验当中做了这样一项工作，开始新的研究，预测根据深度学习，以及视觉化语言模式了解不同物体之间的关系。

　　这张图的算法能够预测不同物体之间的空间关系，进行对比，了解这种对称的关系，然后了解他们之间的动作，以及他们的之间位置关系。所以这就是一个更为丰富的方法，了解我们的视觉世界，而不仅仅是一系列的物体名称，这是我们所做出的一些量化研究。说明我们的工作在不断地进展和取得进步的。

　　一年前的时候，我们知道这个领域发展非常快，就是关于计算机图像识别方面。我们也知道有很多新的研究已经超过了我们的研究成果。

　　我们可以看一下，在他们之间的关系是什么，而且在这个图像当中不同物体的关系，能够让我们去更进一步了解这个问题，就是在物体之间还会有什么样的数据集。最开始我们知道有这个形象，非常有限的信息，比如这是一个物体，COCO进一步学习，提供一个标签，进行短句子描述，视觉数据信息是非常复杂和非常多的，

　　根据途径出来一些问答，经过三年的研究，我们发现可以有更为丰富的方法来描述这些内容，通过这些不同的标签，描述这些物体，包括他们的性质、属性以及关系，然后通过这样的一个图谱建立起他们之间的联系。可以在这看一下这个内容。这样一个数据库当中，包括上千个标签，包括属性和关系，还有句子、问答信息，在我们这样一个信息库当中，能够非常精确地让我们来进行更加精确的研究，而不仅仅知道物体识别本身。

而且实际上到现在为止，我们仅仅探索了认知心理学家所讨论的一个概念，人们在一眼之中能够看到什么样的内容，有什么样的概念，人们只要看一眼就能看出整个图像当中的故事，所以我们要去看一下，这种只看一下图就能够了解它主要信息的能力是什么呢？在我之前，曾经做过一个研究，就是希望人们能够告诉我们，你看到了这个图的时候看到了什么内容，所以这是我们的实验场景，实验人员坐在电脑屏幕面前，给它非常简短地看一些图像，然后很快地去看另外的一个图像，去遮盖之前留下的印象。他们需要打印出自己所看到的所有内容，做这个工作给他们付10美元，现在不给大家一小时10美元，大家可以实验一下这个感觉，如果你是参加我的实验人员的话。

　　在这个图当中其实很快能够被一张简单的途径去盖掉，很短的呈现时间，只有27微妙，27微妙相当于是1/40秒，简单图形的时间是半秒的时间，是更长的，人们还是能够很好地理解场景信息，基本上是很短的时间。如果我给的实验费用更高的话，大家甚至能做的更好。在这个语言当中有非常丰富的元素，不仅仅看到图像当中的物体是什么，他们的关系是什么，而且有更多的内容。

　　2015年开始，我们有另外一个概念，叫做LSTM，他们希望把语言之间关系建立起来，我们在电脑当中给他们一个图像，能够描述，穿橙色工作服的工人站在路上工作，或者穿黑色T恤的男士在弹吉他，不仅仅用简短的句子描述图形，所以后来进行进一步的工作，就是深度捕获。看每个短句，描述一个部分，然后描述图像的场景。

　　除了这个之外，我们今年所做的工作，我们希望把这些图像要用这些短语，让它成为小短的句子，成为一个小段落，给了更多的内容，而且和认知心理学家所做的实验当中，人类的描述结果是非常接近的。但是我们并没有只停于这里，在上个周的ICCB的上面展示了一个视频，非常丰富的研究区域，很多网络上的视频，有各种各样的数据形式，了解这些视频是非常重要的。在里面可以描述更长故事的片段，用同样的模型可以这样做，可以把时间的元素加入到里面。

　　这就是一个例子，大家可以看一下，可以看到视频是在进行着的，我们也可以去描述每一个部分是怎么样的。

　　这是另外一个例子，也是描述了这个演员正在做的这些事情，差不多大家能明白什么意思了。

　　另外一个部分，除了简单的认知以外就是推理，推理可以让我们能够回到人工智能的最初，在20世纪七八十年代的时候，人工智能的先驱们，用了很多推理，斯坦福大学的一个教授也是把他的研究称为一个块状的世界，这里面涉及到很多的深度推理。蓝色还是不错的，喜欢这些蓝色的块状，不喜欢红色的块状，不喜欢支撑三角形的东西，到底喜欢不喜欢灰色的盒子呢？所以这里有很多推理需要去做的，然后够得出一个正确的答案。

　　当然时间过得很快，不能讲的特别详细，但是我们在实验室里也是用了这些简单的工具，来描述这样一个分块状的世界。这里面也有很多的问答列表，每个问答列表都是涉及到推理的过程当中，最关键的一些环节，包括空间的一些关系，一些逻辑关系，在这里面也有一些问答例子。

　　去年，我们也是把这些智能的问答集做成了这样一个系统，人类能做多少，机器能做多少，在准确上面的一个对比。我们到底怎么能够做得更好呢？这也是最近我们做的一个工作，在ICCB发表的。我们用了一个新的程序去做，在我们的算法里面，我们把这些问题输入进来，然后把程序进行一些协调，还有执行的引擎，用预测的一些程序进行执行的处理。通过这样一个算法，我们可以看到这些学习的准确率。

　　有哪些学习模块呢？首先判断到底这些物体形状怎么样，这些紫色是什么样的，这是一个更加复杂的，就是在灰色的这些模块旁边，有多少发光的这些物体？得出的结果是2。

　　我给大家分享的就是一系列的工作，有哪些能够超越我们视觉的一些途径，其实我们在了解到场景，还有其他的一些要素，对于整个的认知会产生什么样的影响，除了这个情景、视觉、语言，还有很多推理等等，这些都是很重要的。

图像识别使图片变成短句，已达认知心理学水平

猜你喜欢

热点阅读