谷歌的阿尔法狗要花5年进化,将挑战你从未听说过的纸牌游戏
还记得2016年3月,谷歌的DeepMind AI AlphaGo在围棋比赛中,AlphaGo以五场四胜的成绩击败了18次世界围棋冠军李世石吗?2017年5月又再次在乌镇击败中国围棋天才柯洁吗?当初谷歌承诺不再将AlphaGo用在围棋比赛中,现在它回来了,它的下一个挑战是你从未听说过的纸牌游戏:Hanabi。
imageHanabi
AlphaGo下一个挑战是什么呢?根据Alphabet和牛津大学的研究人员的说法,答案是“Hanabi。”如果你感到疑惑,这很正常。
imageHanabi,日语中的花火,是一种合作纸牌游戏,玩家一起合作,按特定顺序建立一系列卡片,以引发“花火”表演。独特的方式是每个玩家都可以看到每个人的牌,但他们自己的牌。该游戏仅持续了十年,在2013年赢得了德国年度游戏的最佳棋盘游戏奖。
为什么Hanabi是谷歌人工智能的下一个挑战?
牛津大学的博士生福尔斯特曾在DeepMind实习,说:“例如,你可以想象国际象棋,扑克和星际争霸,大多数游戏都专注于不同玩家之间的竞争。在这些游戏中,通常没有充分的理由让玩家彼此合作或交流。然而,沟通与合作无处不在,是人类生活的基本特征。人类花费大量时间在各种环境中相互沟通,无论是在个人层面还是通过媒体。”
AI代理人如何学会彼此沟通和合作以及最终与人类进行交流非常有挑战性。Hanabi为这一领域的重大挑战提供了一个独特的机会,因为它要求玩家推理其他参与者的意图,策略和观点,这些都是合作和交流的基本特征。
在Hanabi中,玩家必须相互沟通,以找出他们应该玩哪些牌以及应该丢弃哪些牌。固有的挑战是通信仅限于昂贵的提示操作。这些消耗了游戏中可用的有限数量的提示令牌。成功的玩家必须通过商定惯例,以及对游戏中其他玩家的意图,策略和观点的推理来传达额外信息。
“围绕沟通,思想理论和合作的这些方面使得Hanabi与其他游戏相比具有独特性,”福尔斯特继续说道。
点燃导火线
在最近发表的一篇论文中,DeepMind的研究人员为玩Hanabi的人工智能提出了两个挑战。其中第一个是学会用自己的副本成功地玩游戏。这将需要在机器学习方法方面进行大量创新。即使只是计算可用移动的数量在50张卡片组中也很棘手,并且有大量可能的牌在计算上非常具有挑战性。挑战的第二部分包括AI代理人需要学习如何适应新队友的设置。
更艰巨的挑战是让AI与未知的队友和人类一起玩。这将需要诸如理解他人的意图和观点以及适应他们的方法等能力。人类通常在很小的时候就会学习并不是每个人都以完全相同的方式思考,但对于机器来说,这是一个哲学上难以理解的想法。
“我们基本上可以认为第一部分是'搜索惯例',这在技术上很难,但至少在原则上可以写下来,”DeepMind研究科学家诺兰巴德说,“相比之下,在第二部分,人工智能系统可能必须理解'搜索惯例',换句话说队友如何决定采取哪些行动。”
诺兰巴德说:“虽然我们开始使用AI学习与一组固定队友交流的设置,但挑战的第二部分包括代理需要学习适应新队友的设置。虽然所有这些都是AI代理的重要方面,以便与人类和其他代理平稳地交互,但它们目前没有在AI基准中表示。我们希望Hanabi学习环境在填补这一空白方面发挥重要作用。”
研究人员声称人工智能现在正处于可接受的挑战之中,但这并不容易,并且需要在强化学习,博弈论等领域取得重大进展。为了推动研究向前发展,该团队为其他研究人员创建了一个开源的Hanabi环境,作为他们工作的基础。研究人员表示这个研究至少要花费5年左右的时间才有成效。