人工智能与教育人工智能人工智能/模式识别/机器学习精华专题

为了帮助盲人,这个团队开发了一个新算法,并推出数据库

2018-03-11  本文已影响15人  智能观

对于计算机来说,最困难的任务之一是“如何回答视觉问题”,也就是回答关于图像的问题。这不是理论上的脑筋急转弯:这些技能对于盲人的日常生活是至关重要的。

盲人可以使用照相软件来拍照,并附上问题,比如,“这件衬衫什么颜色?”或者“牛奶什么时候过期?”然后请志愿者提供答案。这些图像往往由于聚焦不准,变得很模糊,使志愿者无法作答。

计算机视觉系统可以帮助他们,比如,如果拍摄的照片不合适,这个系统将会提示照相者重新拍摄。但目前机器还不能做到这一点,部分原因是没有大量的真实图像数据可以用来训练它们。

德克萨斯大学-奥斯汀分校的Danna Gurari和几位同事近日推出了包含31000张图片的数据库,以及有关这些图片的问题和答案。

同时,Gurari和同事给机器视觉界带来一个挑战:使用他们的数据集训练机器,解决现实问题,使机器成为盲人日常生活中一个有效的助手。

该数据集来自现有的名为VizWiz的应用程序,该应用程序由匹兹堡卡内基梅隆大学的Jeff Bigham及其同事开发,目的是帮助盲人。 Bigham也是研究小组的成员。

盲人可以使用这个APP来拍摄照片,并且附上要问的问题,然后发送给志愿者团队,由他们回答这些问题。但是这个APP也有缺点。比如,志愿者因为某些原因无法作答,或图像本身没有显示答案。

为了找到更好的方法,Gurari和同事分析了70000张照片,这些照片来自VizWiz用户的分享。这个团队删除了包含信用卡信息、地址等个人详细信息的照片,只留下了大约31000张照片及其相关录音。

然后他们向亚马逊Mechanical Turk众包服务中心的工作人员展示了这些图片和问题,要求每个工作人员提供一个由短句组成的答案。他们为每个图像收集10个答案以确保答案准确。

这31000张图片、问题和答案构成了新的VizWiz数据库,Gurari和他的同事正在公开发布这个数据库,同时,还对数据进行了初步分析,对机器视觉在提供帮助方面面临的挑战提供了独特的见解。

只有2%的盲人愿意机器以“是”或“否”来回答,低于2%的盲人愿意机器只回复数字。

问题有时候很简单,但并不总是这样。许多问题只能笼统地概括为“这是什么?”而且还有其他意想不到的问题。事实表明,虽然大多数问题都以“what”开头,但有大约四分之一的问题通常以一个非常突兀的词开始。这可能是在记录过程中因为剪辑问题而导致的,但有些问题仍然是可以作答的。例如,记录的问题是“卖出或使用此牛奶的日期”,如果图像提供了正确的信息,就可以直接回答。

经过研究小组的分析,超过四分之一的图像无法提供答案,因为这些图像不清楚或不包含相关的信息。能够快速发现这些问题,对于机器视觉算法来说将是一个好的开端。

这也是机器视觉社区所面临的挑战。Gurari及其他研究人员说:“我们引入这个数据集,是为了鼓励更大的社区开发更多的能够帮助盲人的通用算法。改进VizWiz算法可以同时让更多的人了解盲人的技术需求,同时为研究人员开发帮助盲人消除障碍的辅助技术,提供了一个令人兴奋的新机会。”

这无疑是个值得追求的目标。

原文链接:

https://www.technologyreview.com/s/610377/a-new-data-trove-could-teach-computers-to-tell-blind-people-what-they-need-to-know/

来源:MIT科技评论

智能观 编译

—完—

亲爱的朋友:

是的,这无疑是个值得追求的目标。相信有一天,让技术真正惠及每个人,终将成为现实。

近安!

智能观 一米

2018-3-11 于北京中关村

想知道AI加教育领域有哪些最新研究成果?

想要AI领域更多的干货?

想了解更多专家的“智能观”?

请在对话界面点击“找找看”,去获取你想要的内容吧。

声明

编译文章旨在帮助读者了解行业新思想、新观点及新动态,为原作者观点,不代表智能观观点。

上一篇 下一篇

猜你喜欢

热点阅读