【图搜百科】图像识别技术前世今生
导读:图像识别技术,连接着机器和这个一无所知的世界,帮助它越发了解这个世界,并最终代替我们完成更多的任务。
计算机视觉(computer vision)是模拟人类视觉的人工智能技术,用机器来“看”图像,“理解”图像。我们知道电脑中的所有图片都是由无数像素点组成,说白了就是一团马赛克。因此计算机自身并没有画面概念。但是在人类经过数千万年的进化中,早已拥有了复杂而精密的识别和传感系统;而对只有寥寥几十年历史的计算机而言,利用计算机视觉技术让它看懂图像是一件很复杂的事情。计算机场景识别的发展之路才刚刚开始,今天,小编就带大家一起,了解一下图像识别的前世今生。
热闹非凡的视觉识别和搜索
这些年计算机视觉识别和搜索这个领域非常热闹,出现了很多的创业公司,大公司在这方面也花了很多力气在做。大家可以从下面的这张图里看到的一些例子。
亚马逊出品的Firefly当时引起了很大的轰动虽然这个产品也很难说是不是成功,但是当时确实是很大胆的一个举动。百度也有图像搜索和图像识别。Google很早也有了Google Goggles这个产品虽然技术跟现在有很大的差别。Pinterest在去年也有这样的功能问世,就是在它自己的分享照片上可以去搜相似的照片或者是相似的产品。阿里巴巴的拍立淘强调的是用自己手机拍照片去搜索网上相同或者相似的商品。
那么除了这些,还有一些识图搜索引擎也不得不提。
Tineye是典型的以图找图搜索引擎,输入本地硬盘上的图片或者输入图片网址,即可自动帮你搜索相似图片,搜索准确度相对来说还比较令人满意。
百度正式上线了其最新的搜索功能——“识图”。该功能是百度基于相似图片识别技术,让用户通过上传本地图片或者输入图片的URL地址之后,百度再根据图像特征进行分析,进而从互联网中搜索出与此相似的图片资源及信息内容。
GazoPa搜索图片时,不依据关键词进行检索,而是通过图片自身的某些特征(例如色彩,形状等信 息)来进行搜索。
Live.com允许你进行一次关键字搜索后再执行相似性的搜索。你可以为Live索引中的任意一张图片寻找相似的图片,但搜索结果看起来并不是很精确。
Terragalleria主要基于视觉上的相似性,而不考虑图片的内容。
当然还有一个值得提起的后起之秀——“拍图购”
继拍立淘之后承接国内电商图搜领域的新桥梁,反馈速度快,搜索准确率达到80%,同时还能提供更多领域的图像搜索服务。
图像搜索——从火热到没落再到兴起
下面我们回到图像搜索历史进程上来,图搜发展至今也是经历了不同的阶段的。
最早在二十世纪九十年代时那个时候叫做CBIR(Content-Based Image Retrieval)即基于内容的图像检索。但是那时基本上只能在几千、几万幅图上进行检索而且检索的效果很难保证。当时有一个一直流行到现在的词叫做“语义鸿沟”这也是当时我们经常用来质疑基于图像的搜索或CBIR到底靠不靠谱。因为当时的特征难以区分下图所示的两种Case。
所以这个方向到了2000年之后我们有时候开玩笑把它叫做Sunset Project也就是像落日一样没有太大的希望了。这种基于样例的检索其实在之前也经常被人质疑。
样例从哪里来?
如果我有了这个样例为什么还要搜索呢?
当然这个问题从今天来看已经不是问题了!
因为在上个世纪九十年代的时候获取一个图像的样本还不是那么容易。在手机相机那么普及的今天获取一个图像是易如反掌的所以今天一般没有人会问这个问题。
图像搜索的没落直到2008年左右才有所起色当时出现了一家叫TinEye的公司提供这样一种网络服务你提交一个图片后它可以帮你找互联网上跟此图非常相似的图片。这在当时引起了非常多的讨论也就是说它解决了当时那些技术无法解决的scalability的问题。
那么这个scalability是个什么意思呢?做图像的检索时,当图片的量非常大是没有办法把Query图像的特征与数据库里面的图像进行一一对比的。以现在的计算能力如果图像只有几千个甚至上万个问题都不是很大的。但是当你的图像再往大到千万、亿级甚至到十亿、千亿级别的时候就没有办法了。
所以此时就要把图片进行索引。索引在文本搜索里面是通过倒排的方法来做这个是非常容易实现的。但是图像不一样图像的描述是它的特征而这个特征是一个向量。这个向量怎样能够有效地组织起来实现快速地检索这是当时TinEye系统往前走了一步的问题。
但是索引这件事情解决了之后是不是就解决了基于内容的图像搜索问题很遗憾实际上是没有的。因为索引只是解决了scalability的问题,但是图像的表征问题也就是怎么样有效描述这个图像的问题还没有很好地解决。
如上所说这个问题就是
什么样的特征才是有效的
即可以让我们“认为的”相似的图像
在特征上相似并且也是我们认为相似的这样一个问题。
这个问题真正取得进展确实是在深度学习出来之后它可以让我们去按照自己所想要达到的目标去学习一个神经网络通过这个神经网络去抽取图像的特征。
图像搜索的明天
展望图像搜索和识别技术的未来小编认为:
这可能不是某一个算法能解决的,
也不是仅凭深度学习就可以解决的,
更不是说一个搜索系统、识别系统就可以解决的。
我认为是四个方面结合起来
数据、用户、模型和系统。这四个方面放在一起可能不断地缩小语义鸿沟使得我们的搜索“所想”就能够得到“所得”。