为了帮助盲人，这个团队开发了一个新算法，并推出数据库

2018-03-11 本文已影响15人智能观

对于计算机来说，最困难的任务之一是“如何回答视觉问题”，也就是回答关于图像的问题。这不是理论上的脑筋急转弯：这些技能对于盲人的日常生活是至关重要的。

盲人可以使用照相软件来拍照，并附上问题，比如，“这件衬衫什么颜色？”或者“牛奶什么时候过期？”然后请志愿者提供答案。这些图像往往由于聚焦不准，变得很模糊，使志愿者无法作答。

计算机视觉系统可以帮助他们，比如，如果拍摄的照片不合适，这个系统将会提示照相者重新拍摄。但目前机器还不能做到这一点，部分原因是没有大量的真实图像数据可以用来训练它们。

德克萨斯大学-奥斯汀分校的Danna Gurari和几位同事近日推出了包含31000张图片的数据库，以及有关这些图片的问题和答案。

同时，Gurari和同事给机器视觉界带来一个挑战：使用他们的数据集训练机器，解决现实问题，使机器成为盲人日常生活中一个有效的助手。

该数据集来自现有的名为VizWiz的应用程序，该应用程序由匹兹堡卡内基梅隆大学的Jeff Bigham及其同事开发，目的是帮助盲人。 Bigham也是研究小组的成员。

盲人可以使用这个APP来拍摄照片，并且附上要问的问题，然后发送给志愿者团队，由他们回答这些问题。但是这个APP也有缺点。比如，志愿者因为某些原因无法作答，或图像本身没有显示答案。

为了找到更好的方法，Gurari和同事分析了70000张照片，这些照片来自VizWiz用户的分享。这个团队删除了包含信用卡信息、地址等个人详细信息的照片，只留下了大约31000张照片及其相关录音。

然后他们向亚马逊Mechanical Turk众包服务中心的工作人员展示了这些图片和问题，要求每个工作人员提供一个由短句组成的答案。他们为每个图像收集10个答案以确保答案准确。

这31000张图片、问题和答案构成了新的VizWiz数据库，Gurari和他的同事正在公开发布这个数据库，同时，还对数据进行了初步分析，对机器视觉在提供帮助方面面临的挑战提供了独特的见解。

只有2%的盲人愿意机器以“是”或“否”来回答，低于2%的盲人愿意机器只回复数字。

问题有时候很简单，但并不总是这样。许多问题只能笼统地概括为“这是什么？”而且还有其他意想不到的问题。事实表明，虽然大多数问题都以“what”开头，但有大约四分之一的问题通常以一个非常突兀的词开始。这可能是在记录过程中因为剪辑问题而导致的，但有些问题仍然是可以作答的。例如，记录的问题是“卖出或使用此牛奶的日期”，如果图像提供了正确的信息，就可以直接回答。

经过研究小组的分析，超过四分之一的图像无法提供答案，因为这些图像不清楚或不包含相关的信息。能够快速发现这些问题，对于机器视觉算法来说将是一个好的开端。

这也是机器视觉社区所面临的挑战。Gurari及其他研究人员说：“我们引入这个数据集，是为了鼓励更大的社区开发更多的能够帮助盲人的通用算法。改进VizWiz算法可以同时让更多的人了解盲人的技术需求，同时为研究人员开发帮助盲人消除障碍的辅助技术，提供了一个令人兴奋的新机会。”

这无疑是个值得追求的目标。

原文链接：

https://www.technologyreview.com/s/610377/a-new-data-trove-could-teach-computers-to-tell-blind-people-what-they-need-to-know/

来源：MIT科技评论

智能观编译

—完—

亲爱的朋友：

是的，这无疑是个值得追求的目标。相信有一天，让技术真正惠及每个人，终将成为现实。

近安！

智能观一米

2018-3-11 于北京中关村

想知道AI加教育领域有哪些最新研究成果？

想要AI领域更多的干货？

想了解更多专家的“智能观”？

请在对话界面点击“找找看”，去获取你想要的内容吧。

声明：

编译文章旨在帮助读者了解行业新思想、新观点及新动态，为原作者观点，不代表智能观观点。

为了帮助盲人，这个团队开发了一个新算法，并推出数据库

猜你喜欢

热点阅读