投资有道投资理财理财投资

从AlphaGo Zero看人类经验知识的有效性和局限性

2017-10-23  本文已影响15人  b1726da507c7

DeepMind团队在其官网发布了AlphaGo的最新消息《AlphaGo Zero: Learning from scratch》。

他们2017年4月7日即向《nature》杂志投稿的论文,题为《Mastering the game of Go without human knowledge》,9月13日被审核接受,10月18日于网上公开发布。

完整论文网上也可下载了,功德无量。可想而知绝艺和CGI也很快会跟上,DeepZenGo则比较偏执不一定。以后将全面进入人类向AI学棋的时代。

我尝试去阅读论文原文,却实在受限于专业知识。但确实图文并茂,简洁而优美。

版本代号Zero,意即“从零开始学习围棋”,认真体会,其实富有深邃的哲学内涵。

这个版本的成绩,按黄士杰(Aja Huang)博士原话——

- 僅僅36小時後,AlphaGo Zero靠著自我學習,就摸索出所有基本且重要的圍棋知識,達到了與李世石九段對戰的AlphaGo v18的相同水平。

- 30天後,不斷進步的AlphaGo Zero達到了Master的水平。Master即年初在網上達成60連勝的AlphaGo版本。

- 40天後,AlphaGo Zero對戰Master達到近90%勝率,成為有史以來AlphaGo的最強版本。

值得说明的是,乌镇与柯洁下棋的还是Master版本,进化后的Zero版本对Master取得了89%的胜率,目测差不多是让先的水平,对人类我估计可能要让到3子吧。

论文里有三张图很有意思——

蓝色是强化学习(从零开始),紫色是监督学习(导入人类经验知识)。

a.有人类经验知识固然起点更高一些,但瓶颈明显,突破缓慢。充分地、辩证地说明了人类经验知识的有效性和局限性。

b.预测人类职业棋手的下一手,Zero显然不如旧版,毕竟没有相关经验嘛;但这并无碍于它获胜,因为人类职业棋手的招法并非“正解”。Zero好比与世隔绝修炼了奇功,出关一打才发现已经天下无敌,所有你们原来认为的武林高手其实都是渣,虽然招式我不一定见过,但是尽管出拳,反正打不赢我。

c.在预测人类职业比赛胜负的精准度上,Zero的误差却明显来得更低。这是超强的形势判断能力!

(一)人类经验知识是极其局限的

围棋是一个变化非常复杂的游戏,据说其可行的对局数比全宇宙的原子数还多。所以围棋是无法穷尽的,哪怕计算机也不行,不能简单硬算。那么我们都是怎么下棋的?

人类在看似漫长、实则短暂的历史中,逐渐形成了一些经验知识,借此让棋手的招法看起来更“有迹可循”。其中,部分被梳理成认识相对统一的围棋理论,其他部分,则完全看棋手个人的积淀和造化,很多体现为“棋感”,并不容易言喻。

摆脱人类经验知识的“干扰”从零开始,没想到却是AlphaGo Zero突破之前瓶颈的最关键因素。直白地说,很明显,人类高手们的诸多围棋下法必然不是最优的,甚至很多可能是臭棋。

本质上,人类围棋比的是谁少犯错的游戏。除了考验经验知识,考验计算力,甚至还考验情绪控制和体力。

在AlphaGo之前,说道计算机围棋的优势,所有人都能理解在情绪控制方面的心无旁鹫以及体力方面的稳定输出,绝大部分人认同在计算力方面速度和精度,只有少部分人认为在经验知识方面计算机也会更胜一筹。

但前面说了,围棋不能靠简单硬算。在围棋项目上击败人类顶尖高手的AlphaGo,洽洽是在经验知识方面实现超越。

DeepMind介绍AlphaGo Zero算法时有这么一段——

AlphaGo Zero does not use “rollouts” - fast, random games used by other Go programs to predict which player will win from the current board position. Instead, it relies on its high quality neural networks to evaluate positions.

以前的AI围棋,总会去尝试快速、随机地落子来得出棋局结果,借以统计胜率。而AlphaGo Zero是通过深度学习形成的神经网络,直接聚焦到最佳下法上。换而言之,Zero有效地积累了经验知识,从而大大减少了计算资源的投入。

意思是不是说,在追求围棋真理的路上,“棋感”远比计算来得重要?我相信没理解错。因为举个例子,职业高手只需凭棋感,不用花工夫去计算,也可以轻松虐我。当然了,前提是要充分的对局数,并没有捷径。柯洁当年的异军突起,也是网棋上勤奋练出来。

我认为人类经验知识的局限性,主要体现在两个方面:

第一,经验数量上的局限。AlphaGo Zero远超人类的围棋水平,在我看来最核心的还是它积累的无数盘对局,虽然最终只练了40天,但那是代代围棋人都触不可及的训练量。

第二,方式方法上的局限。对复杂事物人类习惯会去做各种总结归纳,形成系统和理论,但基本又都有所偏差。差之毫厘,很可能谬以千里。经验和知识毕竟还不能等同。AlphaGo Zero本次显然找到了一个很优秀的算法,可以真正有效地沉淀下关于围棋的知识。相信也不会是最佳的算法,但人类的学习过程与之相比,因为天赋有限不开窍,或因为被杂事干扰,因为钻牛角尖死胡同,因为遗忘,转化效率低下得多。

正因为人类的经验知识是极其局限的,我们更不能倚赖它们。棋手们输棋的一大原因是“随手”,即不假思索完全凭着棋感就下了,常常出现恶手。李世石在输给AlphaGo之后一度取得了很不错的成绩,他当时对记者表示最大的体会就是不能凭感觉,都得尽量去算。高手们尚且如此,水平低的就更不用说了。

(二)人类经验知识又是相对有效的

黄士杰(Aja Huang)博士在社交网站上还给出了一些有意思的总结——

從圍棋技術的角度來說,AlphaGo Zero所發現的圍棋觀念、下法與定式等等,絕大部分與人類的圍棋觀念是一致的,這也間接呼應了人類幾千年以來圍棋研究的價值。AlphaGo Zero的棋風特別好戰,並且也喜歡直接點33。

AlphaGo Zero是完全從零開始學習,沒有任何人類知識的基礎,所以初始階段AlphaGo Zero甚至會填真眼自殺。

AlphaGo Zero自學而成的許多圍棋知識,打劫、征子、棋形、布局先下在角等等,都與人類的圍棋觀念一致,間接呼應了人類幾千年以來圍棋研究的價值。

人类围棋并未被颠覆。

最有意思的是AlphaGo Zero刚开始学围棋的那3天,从胡乱落子到熟悉规则,从偏好吃子战斗到兼顾全局地势平衡,逐步发现一些新定式,又逐步淘汰一些旧定式,跟每个人学习过程,乃至全人类围棋发展的进程,都极其相似——只不过是按了“快进”。

我们可以欣喜地看到,围棋历史以来,几乎一直在进步,也几乎没有大的反复,每个阶段会有一些不同的探索,但主流的、沉淀下来的,确实都是“干货”。

有些人曾畅想过,围棋第一手是不是可以天马行空下哪里都行?AI给的答案,正如所有高手会下的,还是角上星位和小目,顶多加一个三三,但什么目外、高目等等统统被抛弃。

有些看似是对的,结果好像确实就是对的。不要去怀疑猜测过多(但不怀疑猜测又试不出这些)。

“从零开始”得出的诸多结论,不说是绝对真理,至少也是逐步逼近真理吧。通过AlphaGo Zero,我们反而可以客观地看出人类围棋水平发展到了什么阶段。

前面简单提过,人类经验知识大致可以分为两种——

第一,理论。最擅长的就是形成一套说法,构筑一个模型,来解释这个复杂的混沌世界。这些理论基本不会是真理,它们都能趋近真理。就围棋而言,包括定式、布局理论、官子理论等,都是趋近。就科学上来讲,牛顿经典力学显然不能完全解释这个物理世界的运行(否则也不会有后来的相对论),但在我们日常生活领域都能有效应用,无需怀疑。经济学的各种模型也都有适用的范畴。

第二,直觉。我倾向于这么理解:直觉是人类尝试抽象化、简单化理解这个世界之后,对一些难以覆盖的边缘或范畴外问题的似是而非的判断感觉。我们的大脑负载不了那么多内容,但模型和系统会有一些适度的外延和预测,虽然没法保证一定是对的,很多时候也确实会差错,但只要你是真的付出和投入,更多时候这种直觉出来的结果确实是对的。直觉并不能稳定输出一个准确的答案,但从概率上而言一定程度上确实是有效的。

理论的有效性,只要逻辑充分、实践检验,基本上可以按照真理来参考。

直觉的有效性,除了受限于概率本身,还受限于你的认知积累程度,只能应用于复杂得无法在有限时间内做出抉择的场景。

(三)对投资的启示

其实AlphaGo Zero这个事情跟投资是没啥关系的,我强行关联一下。

1、投资决策上,很多经典理论是明显有效的,我们应该认真学习研究,并通过实践来加深理解。价值投资目前看是一个相对有效的理论。

2、一旦你沉淀够了,就算凭感觉做决策,也会比那些没经历过但瞎研究的人强。要把各种经验内化为自己的本能。

3、然而投资决策还是应尽量避免凭感觉行事。即便当你自身经验知识积累充分的情况下,也只有较大的概率会是对的。

4、哪怕你已经是高手,还是需要老老实实地研究再研究。我们任何一个人类个体,耗尽一生,接触的案例量都是不够的。

5、数量上的积累对正确决策显然有帮助。没经历几轮牛熊千万不要自以为懂投资。

6、别人的经验对你应该也很有价值。不同个体、不同历程,都可以略微趋近一点真理。有时间多读一点历史。

7、方式方法如果错,研究和经历再多都难进步。如同不好的机器算法会出现遗忘、过拟合等等问题一样道理。

8、基础要打牢,本质的东西不能省略,“从零开始”,自己去体验和学习,毕竟别人教你的很可能是片面甚至偏差的。

上一篇下一篇

猜你喜欢

热点阅读