AI2017_在游戏中打败人类
文/良宵听雨
1/2
一系列的惊喜!
3月,人工智能Libratus在宾夕法尼亚州挑战美国顶尖德州扑克游戏玩家,在12万手比赛后,Libratus完胜全部4个对手。Libratus使用的“强化学习”方式能让计算机生成更具创造性的策略,在信息不完全的情况下作出更好的决策。
5月,强化版围棋人工智能AlphaGo在中国乌镇3:0战胜世界第一棋手柯洁,并与八段棋手协同作战在组队战中全胜5位顶尖九段棋手。
AlphaGo的第一个版本使用来自人类专家的训练数据进行引导,通过自我下棋和对蒙特卡洛树搜索稍加改动进行进一步的改进。
10月,横空出世的AlphaGo Zero仅通过40天的学习就战胜了自己的双胞胎兄弟AlphaGo Master。
AlphaGo Zero采用无监督学习,从零开始,不需要任何人类的经验,并通过强化学习发现了新的围棋定式。AlphaGo Zero还优化了核心算法,将策略网络和值网络结合,并引入深度残差网络,用更少的算力得到了更好的结果。
年底,我们看到了AlphaGo Zero算法的另一个演绎:AlphaZero,它不仅精通围棋,还精通国际象棋和日本象棋,使用了一模一样的技术。有意思的是,这些软件走的步连经验最丰富的围棋选手都感到惊讶,激励围棋选手向AlphaGo学习,相应地调整自己的棋风。为了让这更容易,DeepMind还发布了AlphaGo 教学工具。
2/2
围棋不是我们取得重大进展的唯一游戏。
强化学习的下一个领域似乎是更复杂的多人游戏,包括多人扑克,电子竞技。
Libratus是卡内基•梅隆大学的研究人员开发的一个系统,它在为期20天的“一对一无限注德州扑克”(Heads-up, No-Limit Texas Hold’em)标赛中成功击败了顶尖扑克玩家。稍早些时候,查尔斯大学、捷克技术大学和艾伯塔大学的研究人员共同开发的DeepStack系统成为第一个击败职业扑克玩家的系统。请注意,这两个系统玩的都是单挑扑克比赛,这在两名玩家之间进行,比多个玩家扑克比赛容易得多。后者极可能会在2018年取得另外的进展。
DeepMind正在积极研究《星际争霸2》,发布了一种研究环境。OpenAI在1v1 Dota 2中展示了初步的成功,目的在于在不远的将来能够玩转真正的5v5游戏。
素材来源:炼数成金,果壳网。