大脑的奖惩机制

2023-02-06 本文已影响0人屋边星光

我们在做某件事的时候，有时会非常振奋，觉得有着满满的动力；而有时却无精打采，没有奔头。那这是为什么呢？驱动着我们大脑的力量究竟是什么呢？我们该如何操控我们的大脑自由呢？大脑的奖惩机制又是什么呢？

大脑不是一成不变的，相反，大脑从我们出生开始，就是在不断变化的。这种变化不仅体现在大脑的物质结构上，同样也进一步体现在大脑的功能上。也正是因为大脑有这种不断地变化，我们人生总可以不断学习新的东西、产生新的体验和记忆。

一个变化的事物，往往总需要遵循一定的规则，否则这个变化就是无规律、没有方向、不可预知、甚至是混沌的。如果你熟悉人工智能，你或许会知道，具有自我学习、自我演化功能的智能，在设计它的算法的时候，往往要加上一个目标函数，或者说是目标方程。

这样，一个智能从非常初级的阶段开始，才可能有目标地不断迭代、更新算法、更新各种参数，从而尽可能地无限逼近这个目标方程。比如谷歌那个会下围棋的 AlphaGo，它在下每一盘棋的过程中不断学习进步，就是因为它给自己设定了「目标」。

大脑的动态过程其实也是如此，我今天想和你讨论的「大脑源动力」，实际上就是大脑对自己的一套行为变化上的指导方针。

- 大脑的「享乐主义」

从心理学的视角来看，我们人类行为的背后驱动力被称为「动机」（motivation）。当你脑海中对一个人的行为产生了「他为什么要这么做？」这样的疑问时，心理学家对于这样的问题，总可以从动机入手来进行分析。大脑作为我们人类行为背后的力量，它的驱动力又是什么呢？

前一阵我去参加了一个会议，开会时一位脑科学家总结出了这样一段话。她说，简单来说，我们大脑想要的是这三样东西：safety（安全）、reward（奖赏）、less energy（能耗最低）。

这个说法，和 2000 多年前古希腊哲学家亚里士多德提出的「享乐主义原则」（hedonic principle）不谋而合，他认为，人们行为的动机总是去体验快乐并且避免疼痛。

从某种程度上来说，这样的「享乐主义原则」对于大脑来说也是成立的。我们在谈到焦虑的时候曾经说过，大脑总在不断地对外部世界进行分析和预测，并且避免犯错误，而大脑一旦发现自己预测错误，就会根据错误的严重程度来进行自我调整，以防止今后再犯类似的错误。

同样的，当大脑发现自己做对了的时候，也会悄悄给自己之前的算法发朵小红花，以便今后可以继续做对、越做越对。

-「不安全」的惩罚

对大脑来说，做错的事情一般都是威胁到了「安全」的，会以某种惩罚性的形态出现，比如说疼痛。

当你学习用刀子的时候，不小心划伤了手，你感到一阵疼痛，然后你就知道了，之前那种使用刀子的方式是不对的，大脑立刻调整你的运动轨迹；当你学游泳的时候，换气或者姿势不对，呛到了水，这些错误都直接在你的大脑里有所反应，让你知道前面那种做法是需要调整的。

而这种惩罚和疼痛也并不需要非得是生理上的，哪怕是心理层面上的疼痛，也完全可以奏效。

比如，你想象一下，大家围成一个圈，在玩抛球或者踢毽子这样的游戏，或者你们正在举行打篮球或者踢足球这种集体活动，结果玩了半天，没有一个人把球传给你，你的心情会如何？有没有感觉到受伤呢？脑科学家们在这方面，做过很多卓越的研究。

比如，在脑成像技术刚刚兴起的时候，在 2003 年的《Science 科学》杂志上，就刊登了一篇加州大学洛杉矶分校的研究者的论文，他们问出了一个问题：「人们被拒绝时会感到疼吗？」他们的研究所探讨的，就是在社交场景中，被拒绝或是被排除在外时，人类大脑中的反应、和真实的生理疼痛时的反应是否有相似之处。

经过大脑扫描分析之后，他们发现一些传统的疼痛脑区、尤其是和疼痛时的那种情绪反应相关的脑区，比如大脑的前扣带回，在被拒绝和被排挤在外时，也会产生类似的强烈激活反应。

-「低耗能」的学习方式

有时候，我们甚至都不需要亲自去经历错误，也可以从错误中吸取经验，这就是所谓的「观察学习」。观察学习是大脑把能耗降到最低、成本也降到很低的一种学习方法。我们通过观察别人在实际行为的过程中，遭遇到了哪些情况、如何解决、如何又没能解决，从而让我们无需以身试法，也能从中吸取教训。

这种观察学习不光可以在书本上进行，新时代我们的互联网、电影、电视多媒体如此发达，人们有了各种各样鲜活的渠道。你可以身在家中，倚靠着温暖舒适的沙发，让手机连接网络，你就可以看到别人是如何恋爱失恋、如何荒野求生、如何宫斗、如何婆媳大战、如何在官场纵横、甚至如何笑傲江湖的。

这得益于我们的大脑镜像系统以及共情系统，发生在别人身上的事情，别人所经历的情感与体验，在这个多媒体技术发展得不错的时代，对于我们大脑来说，就像发生在我们自己身上一样真实。

- 大脑对「奖赏」的需求

对大脑而言，奖赏也是类似的。奖赏可以由外部的生理刺激产生，比如对饥饿之人的一碗饭、对口渴之人的一杯水等等，奖赏同样可以来源于心理需求的满足。

这种需求可以是方方面面的，可以是生理心理层面，也可以是社会层面上的，比如社会赞许、被领导表扬、被爱人夸奖、被同事称赞、中了彩票、打赌赢了、做自己喜欢的事情等等，对大脑来说，这些都可以是奖赏。

以往在谈到动机的时候，关于人类生理上的源动力在很多时候都被格外强调，就像是生存和繁衍的动机，比如人类进食、回避危险、包括性爱等行为，科学家们更喜欢从生理上进行解释。但是，我们作为拥有着发达的大脑新皮层、以及额叶的物种，我们心理精神层面上的源动力也尤为重要。

就像 1965 年诺贝尔物理学奖得主、美国著名的物理学理查德·费曼，他曾经说过一段话，让我印象深刻。关于研究理论物理学的感想，他说：「研究物理就像性爱一样，当然它可以带给你一些实际产出，但那并不是你去做它的理由。」

我有一些依然活跃在理论物理研究领域的朋友，每当别人问他们：「你们研究这个有什么用啊？」他们就会引用费曼的这段话回答。

在对需求的满足这方面，心理学家亚伯拉罕·马斯洛在 1956 年提出过一个著名的「心理需求的层次理论」。

他认为，人的需求像金字塔一般，从金字塔的底层向上，分别是生理需求、安全与安全感的需求、归属感与爱的需求、自尊的需求、以及自我实现的需求。

先不谈我们是否必须满足了下一层需求才能向上一层需求迈进，马斯洛提出的这些人类需求中，你看，不仅包含了生理层面、同时包含了心理与精神层面的需求。

- 愉悦与奖赏系统

安全与奖赏的源动力，对我们大脑的学习与塑造非常重要，为什么呢？因为，我们大脑里存在着类似「奖赏系统」这样的机制。

比如，最著名的是以中脑的腹侧被盖区 ( ventral tegmental area )、皮层下的核团伏隔核 (nucleus accumbens ) 以及大脑的前额叶、尤其是更靠下一些的眶额皮层 ( orbital-frontal cortex ) 组成的愉悦与奖赏系统。

可以说，这个愉悦与奖赏系统，通过大脑的化学语言、也就是多巴胺的分泌，以及大脑的电物理语言，即愉悦脑区的神经元发放与激活，来让我们感到愉悦与回报，并且进行自我强化的学习。

这个奖赏系统，在我们理解大脑是如何做出决策、以及如何进行决策调整的时候，显得尤为重要。正是因为这个系统的存在，能让我们理解大脑，通过增加安全性、避免疼痛这样的惩罚；以及不停地寻求奖赏，来不断促进学习、适应变化，通过这种方式，大脑让我们的生活变得更好。

但是即使是这样，在谈到奖赏与生理心理需求的时候，你可能还是会问，我们常见的一些成瘾的现象，比如抽烟、喝酒、药物、赌博、甚至运动等等，是否只能从大脑的生理层面上进行理解呢？我们是否已经被大脑的这种享乐主义所控制？

其实并不是这样的。大脑与世界、以及与我们心理的相互作用，其实是感觉所驱动的加工机制、以及意识与注意所驱动的的调控机制，共同作用的。

我们主动的注意、与意识所驱动的大脑，这两点正是我们有着如此强大的新皮层以及额叶的主要优势。同时，我们还拥有一个可以和奖赏系统、和大脑的源动力进行对话的平台，这就让我们拥有了，重新掌握自己大脑自由的机会。

大脑的奖惩机制

猜你喜欢

热点阅读