数学教育自然科普解读

“为什么”:回答人工智能的新科学

2020-02-28  本文已影响0人  684068e44654

20世纪50年代至今,人工智能(Artificial Intelligence,AI)三起两落,现在AI又一次被华尔街(陆家嘴)和硅谷(华强北)捧上神坛。虽然AI在70年间几经沉浮,但其核心依然是建立在机器学习上的,而机器学习的本质是概率论、统计学和大数据技术的交叉融合。

《为什么:因果关系的新科学》(The Book of Why: The New Science of Cause and Effect)的作者是个传奇人物,计算机科学家和哲学家朱迪亚·珀尔(Judea Pearl,)。珀尔今年81岁,不仅是AI界的一面大旗,也是机器学习这门技术的开山鼻祖之一,而他现在是这个技术最激烈的批评者。珀尔有句名言:“数据是极度愚蠢的。”

朱迪雅·珀尔

为什么珀尔会有如此论断,这本《为什么》会带给我们答案。

-1-【因果】的曲折历史

-1.1-认知革命

思考前因后果,对于我们每个人来说似乎是一件习以为常的事情——凡事总会问一句为什么,遇事总会想一想后果——这是一个现代人的理性标配。但是机器并不会,即便现在最先进的人工智能也不会。在历史学家尤瓦尔·赫拉利(1976-)眼里,这一切来自于大约七万年前偶然的人类认知革命。

2020伊始,席卷整个中华大地的新冠病毒,它并不知道细胞生物是什么,它只是侵入到一个适合繁衍的环境。在细胞里,它利用一切它可利用的资源,繁殖自己,直到杀死宿主细胞。但面对细胞外的一切,病毒从未想过,也许是咧咧寒冬和数千年休眠和等待,也许是熊熊烈焰和化为一缕青烟的锅炉。它不顾一切的繁衍,却不知道因果。

遍布整个地球的植物。她们婀娜多姿、口吐芬芳,是制造我们赖以生存的“氧气生产者”。但地球表面并非一直如此温和:在二十五亿年前,地球表面上充满着二氧化碳和厌氧微生物,但突然有一天,一颗孢子吸下了一口二氧化碳,吐出一口氧气,这是多么“清爽”的味道,但却给持续了几十亿年的无氧环境注入了一道“毒剂”,无数厌氧的生物在富氧的环境中渐渐消失。随后的几十亿年中,面对地球称霸赛一次又一次易主,她从未离场。如今,她的“父母”已成为发动机里的燃料,她的“姐妹”已成为宫殿里的房梁,她依然毫不懈怠,但却不知因果。

再俯身看看你身边摇着尾巴的小狗,他是我们最好的伙伴,我们给他食物,他会摇起尾巴、瞪大水汪汪的眼睛,期待更多美味,我们可以通过条件反射教他口令。如果有一天他的“主人”离开了他,他甚至会每天去约定好的地点守候“主人”回来。他无法理解“主人”为什么离开,也无法通过想象出一个“纪念日”去缅怀。他有和我们相近的同理心,但却不知因果。

两千年前的《圣经》里有一个经典段落,一开始亚当和夏娃在伊甸园里面快乐地生活,后来偷吃了苹果,被上帝发现了。上帝先问亚当怎么回事,亚当说那个苹果是夏娃给我的。然后上帝就问夏娃,“你都做了什么?”夏娃说:“都是因为蛇,是蛇骗我吃的苹果。”请注意上帝和夏娃之间的问答。上帝问的是 what,是事实,夏娃回答的是 why,是因果。可能夏娃心想,只说事实是不够的,我得告诉上帝我为什么要做这件事,这样也许能减轻我的罪行。这是一个多么自然的思维模式啊。我们观察世界从来都不是就事论事、光看事实。

我们看到的是事物之间的因果联系,看到的是一个因果关系的网络。

-1.2-统计学革命

可是这么自然的方式,却遭到了达尔文(1809-1882)的表弟——高尔顿爵士(1822-1911)的质疑。

1877年,高尔顿在英国皇家科学院做了一个演示报告。听众都是各方面的牛人,报告人不用什么 PPT,而是面向观众,就好像变魔术一样,一边演示实验一边侃侃而谈,高尔顿这次演示的东西,被后世称为“高尔顿板”。让一个小球从最上方掉下去,当你放了很多很多小球之后,它们就会在竖槽上呈现一个明显有规律的分布:一条钟形曲线。

高尔顿板

高尔顿板演示的是人的遗传。比如身高和智商,可能受多个遗传因素的影响 —— 就好像高尔顿板上的那些隔挡 —— 这些因素综合起来一起作用,结果就一定是正态分布。事实上人的身高和智商的确就是正态分布。你可以想象上面图中横坐标代表身高,纵坐标代表每个身高值上的人数。正态分布就是说,身高特别高和特别矮的人都很少。

正态分布不是新闻。高尔顿这个报告的真正剧情还在后面。高尔顿说如果我在竖槽下面再放上一些隔挡,然后隔挡下面再放上第二排竖槽,就如同下图中右边那样,这就模拟了两代人的身高。

二阶高尔顿板

不论是理论推导还是实验演示,第二排竖槽里的小球都呈现一个更宽广的正态分布。这意味着每一代人身高的标准差会越来越大,也就是身高特别高和特别矮的人应该一代代越来越多才对,越来越极端的身高会越来越普遍。

可是真实世界根本就不是这样的。真实世界里一代代人的身高标准差都是一样的。真实世界里牛人的第二代并没有一半的机会比牛人强 —— 二代好像普遍比一代弱。高尔顿考察了605个英国名人,就发现这些名人的儿子们,普遍不如名人自己有名。

有些问题值得思考十二年。一直到1889年,高尔顿发现父亲们相对于儿子,也有一个回归!如果你先看儿子身高,那些最高的儿子,他们的父亲的身高也不是最高的。显然儿子身高并不能决定父亲的身高,这个关系肯定不是因果关系!

高尔顿把这种关系叫“相关”。这就是“相关性”这个概念的起源。高尔顿是第一个意识到“相关不是因果”的人。

而这次统计学革命,也让越来越多哲学家、科学家把“相关性”捧上神坛。

-1.3-【相关】不是【因果】

现在我们都知道“相关不是因果”。

细心的你,可能会发现物理定律里就不包括因果关系。比如用气压计测量大气压,物理定律说气压计读数 B 和大气压 P 之间有一个正比关系:B = k * P。但是这个定律里根本没说“谁导致了谁”。是气压导致了气压计的读数吗?可是上面的方程完全可以改写成 P = B / k,只看方程,你完全可以说是气压计的读数导致了大气压的大小。物理定律只是描述一个规律,并不在乎因果。

高尔顿的学生皮尔逊(1857-1936)甚至认为,我们只是总结宇宙的规律,然后按照规律——也就是总结出来的经验——去做事而已。至于说规律背后有没有什么因果关系,到底是谁导致了谁,这个永远都说不清,也没意义。

但只有【相关性】,我们将寸步难行,因为我们时时刻刻在用【因果】来判断【相关性】是否有意义。

美国做了大量统计,发现冰激凌销量上升的时候,被淹死的人也增多了——难道说吃冰激凌导致了人被淹死吗?当然不是,它们之间只有相关性,没有因果关系。

全球范围内有统计表明,一个国家的人均巧克力消费量和这个国家的诺贝尔奖得主人数呈现正相关。这种相关性就没意义,总不可能是吃巧克力导致了得诺贝尔奖的几率增加。

有些科学家们并不满意【相关性】的表现,也不满足于止步“相关不是因果”,他们还想知道到底什么是【因果】。

因果关系是不是就是相关性正好等于100%。这正是皮尔逊当年的观点。皮尔逊说因果就是 A 发生 B 一定发生,就是相关系数等于1。但你想想,树木快速生长的时候,小草也在快速生长,它们两个的相关性就是1,那你能说草跟树之间有因果关系吗?其实是春天到了这个缘故同时导致了树和草的生长。所以,我们不能说因果关系就是相关性等于100%。

就算到了今天,人工智能技术在统计学的加持下,已经成为在许多方面超越人类智能的力量时,珀尔依然认为目前的人工智能还只是弱人工智能,而想要进入强人工智能的时代,就必须理解和运用【因果关系】。

【相关性】和【因果关系】就像悬在人类认知上的两朵乌云。

-1.4-因果革命

自从1543年,哥白尼提出日心说,科学革命中展现的的科学方法便越来越深入人心,传统的科学方法是这么描述的:

1.提出一个理论假设;

2.做实验验证;

3.如果实验结果符合理论,这个理论就暂时站得住脚,如果不符合,理论就被证伪了。

这是非黑即白的剧情,理论要么就继续保留,要么就彻底抛弃。

但科学的世界里没有“坚定不移”这一说。这个道理很简单,你有一个什么信念,当有关这个信念的新事实进来之后,你就得修正这个信念。那怎么修正呢?坚定不移不对,听风就是雨也不对——科学地修正,就是贝叶斯方法。

贝叶斯方法有点像破案。福尔摩斯爱说自己用的是演绎法,其实不准确。破案是归纳法。演绎法是按照规则推导一件事的结果,归纳法是从结果追溯缘故。你是从一具尸体出发,推测是谁杀了他。

有了贝叶斯方法,科学家们在【因果关系】领域又开始大展拳脚。其中第一个武器就是我们现在常用的:“控制变量法”

要建立从 X 到 Y 的一个因果关系:X→Y。事情的复杂之处在于,往往会有一个其他因素,Z,既影响了 X 也影响了 Y。因果关系图就如同下面这样:

锻炼身体(X),身体健康(Y),年龄(Z)

比如说,我们希望证明锻炼身体(X)能促进身体健康(Y),但是你得考虑年龄因素(Z)。年轻人更爱锻炼身体,年轻人的身体也更健康。那当你观察到爱锻炼身体的人更健康这个现象,你就不知道到底是 X 导致了 Y,还是因为 Z 同时影响了 X 和 Y。运用“控制变量法”很容易就能去除 Z 的混杂。比如如果年龄是个干扰因素,那我们可以只考察同一个年龄段的人,看看其中锻炼和不锻炼的人的健康区别。如果同为50岁,锻炼的人比不锻炼的人身体好,那就说明在年龄之外,锻炼真可能有好处。

而年龄之外还可能有别的因素。比如工作时间也是个因素,工作清闲的人有更多时间锻炼,同时工作清闲的人身体状况也可能更好,所以你还得控制“工作清闲”这个变量。但这个方法的问题在于你永远都无法穷尽所有可能的干扰因素,也许就是有一些变量是你没想到、或者来不及控制的!所以你还是不敢说 X 跟 Y有因果关系!

为了解决这个,科学家们改进了他们的武器:随机实验,创始人是英国统计学家罗纳德·费舍尔(1890-1962)。

1923年,费舍尔想对比1号肥料和2号肥料对农作物生长的影响。问题在于世界上根本没有完全相同的两块田,不管怎么控制,他都无法排除所有的潜在干扰因素。最后费舍尔想了一个办法。他说我干脆来个*随机*实验。他找了很多块土地,把土地随机地分成两组,一组用1号肥料,另外一组用2号肥料。

大规模随机分组的好处就在于,不管有什么干扰因素,这个干扰因素在两个组里的强度应该是大致相同的。只要实验的样本量足够大,随机分成的两组之间就不会有本质的差异。这是一个天才的设想,这也是现代医学大规模临床试验的理论基础。

以前、包括现在还有很多研究者写论文,索性就把所有相关的因素都给控制一遍,连有些不该控制的也给控制了,反而导致结论出错。举一个例子就会明白,我们假设演员的名气一方面取决于演技,一方面取决于美貌。画成因果关系图,就是:

演技→名气←美貌

常识告诉我们,演技和美貌是互相独立的两个变量,那么如果你想做个数据分析,看看演技和美貌之间有没有相关性,是否应该对“名气”这个变量做个控制呢?你不应该。

如果你要控制“名气”,这就意味着你是研究“在一定的名气之下”,演技和美貌的关系。比如我们只考察名气大的明星。已知这个明星的名气非常大,那如果他的演技不怎么样,你猜他长得怎么样?他肯定拥有超凡的美貌!因为你已经假设了名气来自演技和美貌,演技差还名气大,只可能是特别美貌。同样道理,如果这个明星长得不怎么样,他的演技就肯定是很好的。

本来,对所有人来说,演技和美貌之间也许并没有什么关系。但是因为你控制了名气这个变量,演技和美貌有了个负相关!

用因果关系图做分析是不是就好像游戏一样。复杂的逻辑结构被变成了简单的数学游戏。这是因果革命的伟大贡献!珀尔说,如果你的因果关系图已经包含了所有重要的因素,而你的控制变量又做得足够好,那么只要 X 和 Y 之间还有协同的变化,你就有充分的权利说,你找到了一个临时性的 X → Y 因果关系。这样的结论不能说比随机实验低一等,要知道随机实验也有自己的不确定性。

而基于贝叶斯的因果关系图,以及图中的混杂因子和中介因素等创举,就是珀尔在【因果关系】新科学里的贡献,因此,珀尔在2011年获得了计算机界最高荣誉图灵奖。

-1.5-因果思维

至此,我们回顾了【因果关系】的全部跌宕起伏、盘旋而上的历程。

珀尔在梳理整个【因果关系】进化历史后,将人类思维分为三级因果思维:

第一级思维叫“观察”,是通过数据分析做出预测。绝大部分动物都可以通过观察建立相关性,而目前AI也停留在这一级。AlphaGo 下围棋,并不是它理解这步棋有什么用,它只不过知道走这步赢棋的概率会更大。

第二级思维叫“干预”,是预判一个行动的结果。当以往的数据不能告诉你的,想知道结果的最好办法是做实验。互联网公司一直都在做各种“A/B测试”,看看哪个标题能吸引更多点击,什么颜色的网页能让用户停留时间更长,都是用分组测试的方法。测试是主动的干预。

第三级思维叫“想象”,是对以前发生的事儿的反思。如果我当时是那么做的话,现在会是一个什么样的结果?我现在工资很低,要是我当初好好学数学,大学学的是计算机专业,现在的工资会是多少呢?

有了因果模型,你就能在大脑里做各种思想实验,你就能权衡比较,你就能为未来做计划。以前打猎都是你自己去,偶尔两个人一起去。但是如果你知道人多力量大这个因果关系,你就能想到,也许下次打猎可以多带几个人。我一个人打不过那个大象,五个人一起上行不行?

这样你就做了以前从来没有人做过的事情!你没有数据分析,但是你想象到了。这是人类智慧的伟大突变,正是因为这个突变才使得人类脱颖而出。

-2-基于【因果关系】的人生观

在珀尔的这本书里,主要描述了他在研究【因果关系】中发现的新工具,限于文字,感兴趣的人可以去珀尔书里找寻公式和答案。但珀尔对于【因果关系】还是没有给出明确的定义。

从我个人的理解来看,因果关系其实是你的主观假设。之所以考虑了这些关系而没考虑别的关系,这是你自己主观的选择——是你用自己的知识、阅历和判断出来的。

数据是客观的,而人的观点是主观的。相关性是客观的,因果是主观的。

真实世界里任何事情都是错综复杂的,你根本就无法列举影响一个结果的所有可能缘故。你必须做出各种取舍,你只能把你认为最重要的缘故画在图上。图画完了,你并没有科学地、彻底地、逻辑完备地回答“为什么”,你只是说,根据你的猜测,应该是因为这几个缘故。

而事实上也不需要回答“为什么”。我们在生活中的实际应用,对改变世界真正有用的,其实就是回答“观察、干预、想象”这三种问题。这三个问题比因果关系更基本——因果关系只是我们回答问题的手段。

没有这个手段,只靠数据分析,你回答不了第二和第三种问题。当然,有了这个手段,如果你的因果模型不准确,你给的答案也会不准确 —— 你可能会漏掉一个特别重要的因果关系,你可能忽略了黑天鹅事件。但是这不要紧!预测未来的事儿本来就是谁也保证不了100%准确。

最后,请注意,虽然模型是主观的,但是因果分析仍然具有客观的性质。如果两个人的假设相同,他们画的因果关系图就是一样的,那么因为接下来的数学方法是客观的,这两个人对未来的预测,必定是100%相同。

可是我们不管是给东西分类也好,提出因果关系也好,做预测也好 ——

只要你心念一动,你就必然是主观的。

-2.1-公式化的意义

也许看到这里,你会有些小失落,因为你是抱着全面了解【因果关系】的心态来读这本书的,但是到了书的末尾,珀尔也还是没有正面回答这个整本书最核心的问题,而是试图梳理【因果关系】的发展脉络和他本人在【因果关系】中发展出来的可以公式化的工具。

珀尔的工具推理的结果常常是和我们直觉完全一致的,那我们为什么要把这些常识给逻辑化呢?

逻辑化,是用理性取代感性。

逻辑化才能把道理讲清楚。讲清楚了,在法庭上辩论才有力量。

逻辑化才能标准化。标准化了,才能普遍推广,才容易被人广泛接受,才能形成规模效应。

逻辑化才能机械化。这正是珀尔本人的野心:机械化了才能教给 AI。

当然逻辑化也是有危险的。可能过段时间会有人说你这个逻辑有漏洞!你这是把道德和法律给变成了教条!—— 可以,那到时候咱们再改。

如果我们不走逻辑化的路线,一直凭模模糊糊的感觉行事,当然日子也能过下去,但是我们就摆脱不了蒙昧状态。

-2.2-事与愿违

我们一直在研究事与愿符的规律。人们总是认为好人做好事、坏人做坏事——在社会上有好的事情发生,一定是好人做的;社会上有坏的事情发生,一定是坏人做的。那这个社会要怎样才能变好呢?只要让好人多做事,只要把坏人消灭掉,这社会就能变好。

比方说,我们看到劳动人民的生活收入非常低,生活非常贫困。我们就去问是谁造成的,他们的收入为什么那么低?因为有坏人,因为资本家发的工资太少,那么我们让资本家多付工资,不就行了吗?

一个国家经历了严重的通货膨胀,这是谁造成的,那一定是因为有坏人,因为有人提价,地产商提价,食品商提价,那抑制住他们涨价的冲动不就行了吗?

房价越来越高,我们真正自住的人买不起房了,怎么办?那一定是坏人在炒房,咱们不让那些炒房的人得逞不就行了吗?

失业率一直居高不下,资本家却不断地把工厂迁到海外去,主要就是资本家的责任,咱们限制资本家在海外开工厂,这不就行了吗?

在很长很长的时间里,人们都抱有这种非常淳朴的思想。这是一种“事与愿符”的想法。你有什么样的愿望,就会产生什么样的结果。如果要产生好的结果,我们从小就要怀有美好的愿望,同时让那些怀有美好愿望的人多干事。

经济学家会说,一个坏人,很坏很坏,他到底能做多大的坏事?一个坏人,拿着机关枪在人群里面扫射,他能杀死多少人?10个,50个,100个?

他造成的影响是有限的。为什么?因为大家有反应,因为人是有能动性的,当一个人在做恶的时候,所有人都警觉起来,就开始制止他。所以做恶的人造成的影响其实是有限的。

这是什么意思?他是说,上帝要教我们,怎么识别朋友当中坏的思想。那些敌人的思想,那些一眼就能看出好坏的思想,我们能够识别,能够抵制。倒是那些用良好愿望包装起来的思想,我们比较难识别。

如果有人说,大家跟我来,我带大家去一个饥寒交迫、妻离子散的世界,你猜有多少人愿意跟他去?就算有也有限。但如果倒过来,有一个人说,大家跟我来,我带大家到一个美好的世界去,那里没有通货膨胀,没有失业,人人平等,人人都有工作,想要什么就有什么,想吃什么就能吃什么,大家愿意跟着去吗?我想愿意跟着去的人很多。尽管它不一定能够实现。

这就是因果思维的局限性,因果关系描述是抽象而简化的世界。因此,在研究因果关系的时候遗漏细节是在所难免。我们可以强调“民主”和“自由”这些抽象的词的好处,但是背后的贫富分化和贸易冲突我们却始料未及;加之,人的思维带宽也有限,即便是我们想面面俱到,也通常心无余力。。

我们在制定法律、规则、方针总是从“通盘考虑”“一盘棋”的宏大愿景出发,最后却不得不停留在某几个特定的角度。为什么好心办了坏事,为什么常常事与愿违,这不就是因果思维目前的弊端么?

康德有一段话特别打动我:“愿上帝保佑我们免受友人的攻击——要是攻击来自敌人,我们倒能设法自卫。”

-2.3-贝叶斯的心态

托马斯·贝叶斯(1702-1761)是个了不起的人物,他是英国的神学家,做过神父。贝叶斯方法是:

1.先评估一下自己的信念,设定 P(信念);

2.等待新证据;

3.证据出来以后,用贝叶斯公式更新自己的信念,计算 P(信念|证据);

4.继续等待新证据……

不要说什么“坚定不移”也不要听风就是雨。保持开放心态,让你的观点随事实发生改变,用一个量化的数值决定你的判断。虽然永远都摆脱不了主观的成分,但是你会做出更科学的决策。

贝叶斯方法实际上是对科学方法的重大升级,先给理论假设设定一个可信度。新证据并不直接证实或者证伪理论,只是调整可信度的大小,做一个动态的判断。

贝叶斯方法是一种实用主义的态度。其实咱们想想,我们搞研究的目的并不一定是了解*绝对真实*的世界——也许绝对真实的世界根本就不可知——我们的目的是通过获取实用的知识,做出尽可能准确的判断和决策。

但任何方法都有其内部的矛盾,即便精确如代数、几何学和逻辑学,也避免不了很难给“无穷大”、“点”和“集合”下定义。

最后,我想讲一个故事:

太阳每天从东方升起,根据贝叶斯方法,我们对明天太阳继续升起这个预测的信心会越来越大,直到8分钟之后,天空一片黑暗……

上一篇下一篇

猜你喜欢

热点阅读