AlphaStar来了

2019-01-26  本文已影响0人  将蓝

这两天出现了两个我认为比较重要的新闻,一是中国队0:3负于伊朗,引发里皮暴怒,这个失败我觉得倒没什么,不用太在意,一方面是与伊朗的实力差距明显,另一方面是里皮在亚洲杯前就明确表示不会续签合同,也就是说他肯定不会带领中国队冲击下届世界杯了。那么8强相对来说还是一个对中国来说最好的结果,如果真让中国这次取得4强以上的成绩。那么,对中国足球来说才是一个麻烦。为什么这么说呢,因为,按照目前的名额分配来说,亚洲前四是可以保证进入世界杯决赛圈的。如果这次亚洲杯国足打进前四,那么,不光会导致这批球员弄不清自己的斤两,对于球迷和整个足球环境也就有了更高的期待,这对于里皮的接任者来说,无疑就是灾难,任何一场比赛出现问题都会导致倾覆的命运,这必将形成新教练对自己战术体系的磨练和推行以及和选材的阻力,如果连战术体系都不能实战演练,能取得好成绩就是白日做梦吧,而且国家队这些三十好几的大龄青年,你真指望他们两年之后和40岁的小将郑智一起再次冲击世界杯?从我的感受客观来说,8强符合国足的定位和实力,我始终觉得,中国足球实力并不像媒体和大家认为的那样不堪,但是要说具有亚洲顶尖的水准,肯定也不是。但是只要战术得当,加上一些运气,跳一跳,完全是可以冲击世界杯决赛圈的。所以,8强这个成绩很好,既能让人脚踏实地,又对未来有希望。

另一个新闻则是昨天DeepMind出品的AlphaStar首次公开亮相对阵顶尖人类选手Liquid 战队的MaNa,AlphaStar在比赛中期被MaNa使用棱镜空投不朽骚扰主矿经济时,陷入循环困境,兵力一直在无效运动,错过压制时机,最终告负。尽管是在公开赛中首战失败,但是AlphaStar在之前分别与TLO和MaNa的五场比赛中,都是以5比0横扫,这场比赛的失利,其实更像是MaNa利用了AlphaStar的bug。毫无疑问,人类和ai在微操上的差距不知道要用几个量级来衡量。所以为了公平起见,比赛中对AlphaStar做出了apm<180的限制,而对人类选手则禁止使用一些非常规战术。

从近年Alphago和AlphaStar和表现看来,人工智能的崛起已经不可阻挡,我对人工智能的理解分为以下四个阶段,为了举例和理解简单方便,我拿最简单的一元一次线性方程来进行说明,实际情况肯定比这个方程复杂,请不要对此太纠结。

阶段一:y=kx+b,k已知,b已知,给定x约束下,求最优解y。

这个是我们日常都能碰到的情况,我们可以轻松的使用计算器和电脑求解,这个阶段AI早已经轻松突破,这个阶段甚至根本谈不上AI。

阶段二:y=kx+b,k未知,b未知,给定x约束下,求最优解y。

这个阶段,可以粗略对应于AI在国际象棋和围棋领域与人类的对战,前几年Alphago轻松战胜李世石和柯洁。不说民用,至少在实验室条件下,AI几年前已经突破。

阶段三:

k,b,α、β、δ。。。都未知,而且α、β、δ。。。取值不固定,在给定x约束下,求最优解y。(我勒个擦,公众号公式弄不了下标,只能截图啊!)

这个阶段对应的就是我们看到的星际2,AlphaStar VS MaNa,AI面对的是多变量多权重开放动态性复杂求解,而且对应于y1、y2。。。yi,权重α、β、δ。。。会不停变化,到这里就有点绕了,我结合实例仔细讲一下,玩过即时战略游戏的人都知道游戏取胜是由一些目标结合起来实现的,比如开局是资源的获取,这里可以当成是y1,然后是修建建筑、制造作战单位,这里想像成y2、y3。游戏中期就是攻击对方的建筑和单位,限制对方的资源采集和发展,这里是y4、y5、y6、y7.最后是决战,歼灭对方的建筑和单位,y8,y9.当然,还有其他等等,无法一一枚举。最终取得游戏胜利y=αy1+βy2+...。在游戏过程中,各分项指标y1、y2、...、肯定都是越大越好,但是分项指标对最终结果y的影响权重又是不一样的,而且在不同的阶段、时期以及根据对手的战术不同还会变化,这尼玛,简直就是一堆乱麻啊!而针对这种复杂的情况,DeepMind给AlphaStar设计的是完全不同于第二阶段的一套算法。(下面这段是来源于DeepMind的项目领导者David Silver的引文)

“像 AlphaGo 和 AlphaZero 这样的基于搜索的方法更难适应不完美信息博弈。例如,基于搜索的德州扑克算法(比如 DeepStack 和 Libratus)通过信念状态推测对手的手牌。与之不同的是,AlphaStar 是一种无模型的强化学习算法,可以间接地推理对手状态,即通过学习行为这一最有效击败对手的方法,而不是试图给对手看到什么建模。可以认为,这是应对不完整信息的一个有效方法。

另一方面,不完美信息游戏没有绝对最佳的游戏方式,而是取决于对手的行为。这就是星际争霸如此让人着迷的原因,就像「石头剪刀布」一样,所有决策都有优势劣势。这就是我们使用 AlphaStar 联赛,以及为什么策略空间的所有角落都如此重要的原因——在围棋这样的游戏里这是不重要的,掌握了最优策略就可以击败所有对手。”

从这里可以看见,针对于第二阶段围棋那样的应用场景AlphaGo是通过建模,使用深度学习加蒙特卡洛的剪枝和搜索,量化确定最优解。也就是说在第二个阶段适用的场景下,因为规则和边界简单清晰,AI找到最优算法后,几乎可以穷尽变化,人类是不可能战胜AI的,这也就是为什么AlphaGo在战胜排名第一的柯洁之后,DeepMind不再进行后续研发和投入的原因。

而在第三阶段则不同,由于所面对的环境和条件更复杂,没有办法找到通用性的算法,AI这是通过学习和积累人类和Alpha自己对战的总结和积累,无限逼近和拟合出一套最优的战术的策略。在这个意义上来说,只要人类选手的战术足够新颖,不是AI以前碰到过的情况,人类还是有可能战胜AI的,这也就是为什么比赛中人类选手被禁止使用一些非常规战术的原因。

也就是说,第三个阶段,目前AI是照着棋谱下棋,通过微操作上的优势,和不受情感状态的波动稳定发挥来战胜人类选手的。而第二个阶段的AI则是完全做到心中无谱,全方位的碾压人类。所以柯洁与AlphaGo对决后,才会说“它对棋的理念都在改变我们对棋的最初想法,没有什么棋是不可以下的。在棋局中,可以大胆创新,大胆开拓自己的思维。”

回到文章的提纲上来,换句话,在第三阶段,AI目前对人类还没有完全形成有效超越。而一旦AI在这个阶段形成突破,除了站在世界顶端定义规则和边界的一小部分人,对大部分人来说,生存条件将会变得前所未有的恶劣,从马斯洛需求模型来看,这些人将没有任何实现自己价值的途径。也许向外太空殖民扩张是唯一能解决这个问题的方法。

对了,再多说一句,如果用游戏来测试AI的水平的话,我觉得魔兽争霸比星际更有说服力!

第四阶段

k,b,α、β、δ。。。都未知,而且α、β、δ。。。取值不固定,x约束条件未知需要自己求解,求最优解y。(我勒个擦,再吐槽一次,公众号公式弄不了下标,只能截图,不美观啊!)

这个阶段就牛逼了,简单来说就是什么都不知道,也没有任何规则和边界的约束,自己去找约束条件,只对结果有要求。未有效突破第三阶段之前,这个阶段AI肯定无法染指。

差不多该收尾了,AI已经成功突破了第一和第二阶段,第三阶段以发展的眼光来看随着量子计算和回归算法的迭代优化,突破只是时间问题。而对于人类来说,第三阶段的突破,将会导致很多人失去工作价值,这个阶段,要面临的不光是技术问题还有社会问题和伦理问题,这个时候AI还是人类的帮手和工具的延伸,对于人类来说怎么解决被AI淘汰掉工作机会的人的安置问题,处理人类内部矛盾将是一个最大的难题,这个阶段人类社会可能会出现重大变革,有可能进步也有可能倒退。如果最终的结果是AI进入第四阶段,那么人类将会碰到与AI的领导权之争,所有的知识体系和价值观将会颠覆,整个世界从底层开始重新架构。。。

-----------------------------------------

最后附上两个MaNa对战AlphaStar的视频:

视频一,AlphaStar 5:0横扫 MaNa


Deepmind AI AlphaStar vs MaNa_腾讯视频

视频二,MaNa公开赛战胜AlphaStar


AlphaStar对MaNa直播局_星际争霸2_腾讯视频
上一篇下一篇

猜你喜欢

热点阅读