![]()
来源:追问
我们无时无刻不在预测——从朋友能否准时赴约,到瞬息万变的金融市场走向。这种看似基础的能力,背后隐藏着怎样的认知机制?
汤姆·奇弗斯(TomChivers)认为,这并非神秘的直觉,而是我们大脑作为一台“贝叶斯预测机器”的持续运作。这个源自18世纪的数学公式,不仅驱动着从ChatGPT到医疗诊断的现代技术,更可能在深刻地塑造着我们对世界的基本感知。
这便引出了一个极具颠覆性的核心问题:我们眼中的世界,究竟是客观现实的精准复刻,还是我们大脑基于过去的经验和不间断的预测,精心构建的一场“可控的幻觉”?
在《贝叶斯定理》一书中,汤姆·奇弗斯(TomChivers)将带领我们深入这个看似疯狂却又极具说服力的理论。为什么我们会看到视错觉?为何精神分裂症患者能自己挠痒痒,而我们却不能?当我们认真审视自己的双手时,究竟“看”到了什么?这些看似离奇的问题,都将通过贝叶斯这一强大工具得到剖析,它不仅是理解概率的钥匙,更是解码意识与自我、探索“真实”边界的思维利器。
![]()
汤姆·奇弗斯
Tom Chivers
著名科普作者、出版人
擅长解释复杂理论在日常生活中的实际应用,因而成为了科学写作领域广受欢迎的作家之一。2018年、2020年两次获得皇家统计学会卓越奖;2021年荣获英国科学作家协会的年度科学记者奖。
真实只是一种“受控的幻觉”?
理查德·菲茨休做过一个有趣的实验——人们能不能通过猫脑中视网膜传向大脑的神经脉冲,判断猫看到了什么?
传递到人脑(或猫脑)的信息,本质上是一种能量,我们很容易忘记这一点。光子接触到感光细胞后会引发微小的化学反应,这一反应会沿着神经传播,进而引发一系列化学反应。指尖感触到压力也涉及类似的过程。大脑接触到的、神经传输过去的,都是一系列能量。如果感官中的感受器没发现什么异常,那它通常会保持安静,每秒钟随机发射几次信号。如果发生了某些状况,比如面前有灯光闪烁,神经就会将数量更多、更有规律的信号传输给大脑。理查德·菲茨休要做的事就是设定一种统计方法,通过分析猫的视神经所传输的信号,来判断猫是否看到了闪烁的灯光。
将实验结果和现实情况对比之后,他意识到自己成功了。不过大脑的实际工作远比这复杂得多:它不仅要分辨“闪烁”“没有闪烁”,还得分辨画面是“狗”“老鼠”“汽车”“主人”“猫粮”,还是“漂亮的异性猫”等无数种可能性(当然,这里的大脑指的是猫脑)。大脑接收到的只是一些不同频率、不同能量的电化学信号。经过某种转换之后,大脑把这些信号变成了真实世界中的物理实体和社会活动。
刚才我们说过,大脑的工作涉及先验概率、预测、假说等概念,现在我们来具体分析一下这件事。神经学家克里斯·弗里思认为,人类对现实世界的感知其实是一种“受控的幻觉”。
假定我现在正盯着桌上的一个咖啡杯(不知为何,我读到过的每一本和该理论相关的书都会以咖啡杯为例,难道这些作者都在互相抄袭?应该不是吧,我觉得真正的原因更有可能是这些作者在桌前奋笔疾书时,为了寻找例子抬头看了一眼,刚好都看到了桌上最常见的物品,即咖啡杯。为了“保持队形”,我决定本书也以咖啡杯为例)。感知的“接收模型”认为,我是通过自下而上的信号来感知咖啡杯的。也就是说,信号会通过眼睛传递给大脑,就像电视信号传给电视机一样:这些信号可以携带现实世界的基本特征,比如颜色、线条、形状。大脑的低层级进程会接收这些特征,然后将其构建成某些更为复杂的想法,之后将这些想法和大脑中的记忆,以及大脑对世界的认知模型进行比较,最后给这些信号贴上“马克杯”“咖啡杯”等标签。
多年以来,自下而上的感知模型一直都是认知科学的主流观点,但近些年情况发生了变化。
如今有很多学者认为,我们脑海中的世界的画面并非来自感官,而是来自大脑的持续构建。我们围绕着身边的世界建立了一个三维模型,然后根据模型去预测世界,根据信息构建“幻觉”。这一过程不仅涉及自下而上的信息传递,也涉及自上而下的信息传递,后者同样重要。大脑的高层级进程会向下发送信号,将其传递给感觉接收器,从而让它们对未来的信号有一个预估。
如此一来,当我环顾办公桌,视线逐渐集中到某一点时,我大脑中的高层级进程就会向低层级进程发送信号,告诉它们“预计键盘旁边会有一个粉色的咖啡杯”。之后低层级进程会将这些概念拆解成“视野30度的范围内存在一个矮矮的、浅色的、类似于圆柱体的东西”之类的内容。之后这些概念还会再被拆解成更基础的概念,比如“这儿有某个颜色”“这儿有一条垂线”等。最终,这些概念会被转化成最基本的、类似于底层代码的形式,即理查德·菲茨休的实验中的那些形式:视神经中的某些轴突每秒钟大约发射多少次信号。总之,这些预测和假说会从更复杂、更高层级的进程开始逐级下传,最终变成最简约的神经信号。
与此同时,这些神经也会逐级上传一些信号,比如“目前的信号频率是这个数”。咖啡杯就在我预想中的位置,所以实际信号频率和预测的频率一致。由于预测完全符合现实,所以大脑中的世界模型不会有什么变化。由于咖啡杯就在它应该待的地方,所以神经不需要再往上发送任何信号。如此一来,大脑针对周边场景构建出来的“幻觉”也不必发生任何变化。
现在我伸手去拿那个咖啡杯,我相信杯子里装满了热咖啡。我把手放到咖啡杯在预想中的位置,握住了它(高层级预估是“杯子里装满热咖啡”,低层级预估是“面前有某个特定重量、特定温度的圆柱体”,底层代码级别的、最基础的预估是“肌肉运动知觉、温感神经信号”之类的东西)。然而握住咖啡杯、准备将其端起来的一刹那,神经信号和大脑预期发生了不一致。
大脑预期和实际接收到的信号不一致时,低层级进程就会将问题反馈给略高一级的进程。如果略高一级的进程可以解释该现象,那它就会把相关解释以信号的形式逐级传递下去;如果它也无法解释该现象,那它就会把信号发给更高一级的进程,如此反复下去,直到某个层级的进程可以解释该现象为止。最终,某个高层级的进程会用复杂的概念来解释这一问题——一刻钟之前我把咖啡喝完了,杯子早就凉了,如果还想来一杯,我就得去重新烧水。
由此可见,重要的不是神经向大脑传递了什么信号,也不是大脑中的高层级进程向下传递了什么样的预测,而是二者之间存在何种区别,即预期情况和实际结果存在何种偏误。在产生预测偏误的情况下,大脑会根据新信号不断更新预测,努力降低偏误程度,尽量让预测模型符合现实。
统计学家和机器学习专家可能会觉得这很像“卡尔曼滤波”。卡尔曼滤波是一种算法,它可以利用大量测量值去预估某些未知量,然后根据这些预估量做出新的预测。比如,你手机上的GPS(全球定位系统)会接收到来自不同卫星的信号,然后根据这些信号去估测你所在的位置,最后根据估测出来的位置去预测下次接收信号的时间,如此反复下去。换句话说,这就是先验概率—数据—后验概率的模式,后验概率又会成为新的先验概率。
当然,大脑要做的远不止这些。除了预测会接收到什么信号,大脑还得预测它发给肌肉的信号会产生何种效果,以及这种效果会对感官发出来的信号产生何种影响。这是一个错综复杂的过程,上行和下行的信号会来回传递(甚至会交错在一起),相互“握手”。各区域的大脑进程会检查预测是否符合现实,仔细判断、权衡预测的可靠程度和准确程度,以及上行信号的精准程度。此外,大脑要处理的信息也是多种多样的,不仅包括听觉、视觉、触觉、嗅觉、味觉等信息,还包括所处位置、优先级别、是否饥饿、是否口渴、是否兴奋等一系列信息,之后大脑还要将这些信息综合到一起。
虽然你可能已经听烦了,但我还是得说,这仍然是一个贝叶斯式的过程。预测就是先验概率,感官数据就是似然函数,更新后的预测就是后验概率。而且至关重要的是,虽然你的预测会不断根据感官信息进行更新,但本质上来说你是生活在自己的预测里,而不是数据中——你体验到的不是感官数据,而是脑内预测。神经学家阿尼尔·赛斯表示:“根本上来说,我们的‘体验’就是建立在感官数据上的一种贝叶斯模型。”
所以我认为,意识体验基本上就等同于贝叶斯理论中的先验判断,这一观点并不夸张,因为阿尼尔·赛斯、克里斯·弗里思也是这么想的。克里斯·弗里思认为:“意识只是我们用来分析世界的模型,它并不是世界本身。”阿尼尔·赛斯认为:“我们能够感知到的内容,其实就是这些自上而下的预测。”由此可见,意识本身就是一个贝叶斯式的分析模型。
多巴胺与“复杂的计算装置”
现在我说话得小心一些了。在不涉及数学计算的情况下,似乎所有事物都可以归纳为贝叶斯理论。“先做一个猜测,然后得到了新信息,最后改变自己的猜测!完美,这就是一个贝叶斯式的分析过程!”真是这样吗?这恐怕不够有说服力。
首先,正如前文所说,大脑可以把各种感官信息综合在一起,但我们并没有明说大脑如何做到这一点。假定我现在正和某人聊天,那么我不仅能利用耳朵听到的信息(对方说的话),也可以利用眼睛看到的信息(对方说话时的口型)。
对一个优秀的贝叶斯主义者来说,不管是哪种感官提供了更精确的信息,他都会赋予它更多的权重。阿尼尔·赛斯、克里斯·弗里思都提到过一个实验,该实验可以证明这一点。克里斯·弗里思表示:“虽然这个实验不是我做的,但它的确是一个精妙的实验。他可以证明人们会把视觉和触觉综合在一起。”
该实验要求受试者用眼睛和手估算木板上的一个凸起的宽度。精妙之处在于,木板和凸起并不是真实的,它们只是上方屏幕投在镜子中的影像。受试者的双手只能放在镜子下面,且连接着某个装置(克里斯·弗里思将其称为“复杂的计算装置”,论文原作者将其称为“力反馈装置”)。该实验中,研究人员既可以向图片中加入一些干扰元素,调整画面精度,也可以控制“复杂的计算装置”的反馈精度。
正常情况下,视觉会比触觉更精确,所以受试者的估算通常是基于视觉,而非触觉。然而,随着图片中干扰因素的增多,依靠触觉进行估算的受试者人数也会随之增多。
有意思的地方在于,实验人员还模拟了一个优秀的贝叶斯主义者如何利用“最大似然函数”(就是费希尔、皮尔逊当初争来争去的那套理论)将充满干扰因素的两种感官信息综合到一起。随着两种感官信息的标准差的增加——这意味着图像越来越扁、越来越宽——它们对我们的观点的影响程度会越来越小,正如贝叶斯模型所预测的那样。
该实验发现,人们整合信息的方式非常接近于一个理想的贝叶斯主义者会采取的方式。我们的大脑接收干扰数据、利用干扰数据的方式几乎就是贝叶斯模型的最优解。
之所以存在这么多视听幻觉,是因为当我们对某件事做出预估之后,我们的大脑会倾向于对这种预估做出反应,而不是这件事本身。克里斯·弗里思还向我推荐了神经学家沃尔弗拉姆·舒尔茨于2001年发表的一篇论文。在该论文背后的实验当中,沃尔弗拉姆·舒尔茨在猴脑中植入了电极,然后观察那些可以释放多巴胺的细胞在什么情况下会被激活。
有人认为多巴胺是一种“用来构建奖惩机制的化学物质”,也有人认为多巴胺是一种“能够带来快乐的化学物质”,我不打算详细描述这一争论,只想向大家简单介绍一下——多巴胺是一种神经递质,具有多种作用,并不像人们常说的“它能给人带来快乐”那样简单,它的确和大脑的奖惩机制有关。
实验当中,实验人员会让猴子产生一种预期——看到强光闪烁之后,装置就会喷出美味的果汁。为了做到这一点,实验人员会先让猴子看到闪光,一秒钟后启动装置,让果汁直接喷射到猴子的嘴里。
这个实验很容易让人联想起“巴甫洛夫的狗”,那些狗对“铃声与食物”产生了条件反射。多次实验之后,巴甫洛夫发现,狗在铃声之后、食物出现之前就会开始流口水。沃尔弗拉姆·舒尔茨也发现了类似的现象:果汁刚刚到达猴嘴的时候,多巴胺细胞的活跃程度会达到一个峰值——它们对奖励做出了反应。不过随着时间的推移,这一峰值会逐渐提前到果汁喷射之前,因为“奖励”会伴随着闪光而出现。果汁真正到达猴嘴时,多巴胺水平反而不会再有什么变化。
更有意思的是,如果果汁喷射之前灯光没有闪烁,那么多巴胺细胞的活跃水平仍旧会在意外奖励抵达时出现峰值,就像之前一样。不过,如果灯光闪烁了,但果汁没有喷射,那多巴胺细胞的活跃水平就会下降至基准值以下——预期的奖励没有出现,猴子感到失望了(至少可以说,”猴子分泌多巴胺的细胞”感到失望了)。
![]()
这就是“大脑本质上是一台预测机器”的最简模型。在最基础的层面上,你的感官会对世界进行预测:如果世界符合预测,那它们就会停止发送信号;如果预测有偏误,那它们就会向更高层级的进程发送信号。
这一点很重要。无论在哪一个层级上,我们的体验都是一种预测。这些预测会和现实进行比对,如果符合得很好,就没什么问题;如果符合得不好,就说明预测有偏误,信号就会向上传递。
还有研究表明,驱动神经信号的不是符合现实的预测,而是产生偏误的预测。例如,在视网膜神经节(眼睛中一束特殊的神经)当中,细胞传递的“是预测偏误的信号,而不是原始视觉图像的信号”。即便在这种层级非常低的进程中,似乎也存在着贝叶斯式的处理过程——这些进程处理新信息、利用新信息进行新预测的方式,非常类似于贝叶斯模型的最优解。
现在上一节的内容就变得更加具体了。问题的关键在于,预测越精准、感官数据越精确,大脑对它们的关注度就越高。高层级进程总是会向下传递信号,告诉低层级进程未来应该会发生哪些事,之后低层级进程会将“翻译”后的预测再传递给更低层级进程,同时将这些预测与感官层层传递上来的数据进行核对。在每个层级当中,上级传来的信息都是“预测”,下级传来的信息都是“数据”。
这些本质上都是概率问题。“高精度”的感知和预测比其他感知和预测更有把握。比如某个晴朗的日子,你看到一头牛站在3米外的田野里,这种感知就是高精度的。潜水时,透过浑浊的海水隐隐约约地看到一个黑黢黢的东西,这种感知的精度就相当低。扔一把锤子,它会掉到地上,这就是高精度预测;明年的通胀率会低于5%,就是一个精度极低的预测。
每个层级都在发生类似的事情。每个层级都会接收来自上级的预测,以及来自下级的感官数据,然后通过贝叶斯定理将二者综合到一起。如果二者大致吻合,那预测就基本正确(用贝叶斯术语来说就是,如果似然数据和先验概率非常接近,那后验概率也不会相差多少)。这种情况下,该层级不会向上或向下发送太多信号,它只会表达一些类似于“很好,7点钟方向一切正常”的信息。
不过,如果二者有很大出入,那情况就复杂多了。第一种情形是,感官数据精度极低,预测精度极高,且二者不相符。比如一个薄雾弥漫的日子里,你正在伦敦西北的汉普特斯西斯公园徒步,用余光看到90多米外有一个大小、形状和非洲水牛差不多的东西。你的大脑非常有把握地认为,伦敦北部不可能有非洲水牛,再加上视觉数据是模糊的、不精确的,所以预测的地位会比感官数据要高。这意味着数据均值和先验判断相去甚远,且标准差很大——数据呈现一条又扁又宽的曲线,而先验概率呈现一条又高又窄的曲线,前者无法对后者产生太多影响。这种情况下,该层级仍旧会保持安静,几乎不会向高层级发送什么信号。
第二种情形是,感官数据精度极高,且与预测不符。此时新信息会改变你的判断,因为根据贝叶斯模型,这个预测很可能是错的。这种情况下,该层级产生了预测偏误,或者说产生了很大的“惊异度”,所以它会通过神经元向高层级发送信号,提醒高层级事情不对劲。不相符的程度越大,这些信号的强度就越高。如果是极高精度的预测和极高精度的感官数据产生了矛盾,比如浓雾散去,天气变晴朗,你仔细一看,发现“我的天啊!那真的是一头非洲水牛”,那该层级就会向高层级发送极其强烈的警报信号。
高层级接收到警报信号的同时也会接收到数据,然后整个过程会重新开始。它会试图用高层级的世界模型去解释这一切。如果解释通了,它就会向低层级发送新预测,让预测和数据相符,同时停止向更高层级发送警报信号;如果它也没法解释,那它就会向更高层级发送警报信号。每个层级的进程都会试图协调自下而上的数据和自上而下的预测,之后要么生成新的预测,并将其沿着层级向下传递;要么继续沿着层级向上发送警报信号,因为它也无法解释这一切。数据和预测不相符的程度越高——和先验概率的偏差越大——信号向上传递的强度,或者说“音量”就越大。
另外很重要的一点是,大脑非常讨厌预测偏误,非常希望自己能够做出正确预测,所以它总是想要将预测和感官数据之间的偏差降到最低。换句话说,大脑之所以很关注预测偏误,是因为大脑想解决这一矛盾。没错,就是“关注”——如果高精度预测和高精度数据不相符,如果自下而上的感官数据和自上而下的大脑预测不相符,这件事就会引起你的关注——一个紧急的、强烈的警报信号就会沿着层级上传。
网球、猜词游戏、“眼跳”
目前为止,我们一直在谈论感知,搞得好像我们就如同一块海绵一样,总是被动地吸收外界的信息。虽然这样做有助于我们讨论问题,有助于我们建立一个基本模型,但实际上这并不是真实情况。
我们不仅会吸收信息,还会搜寻信息。我们会走来走去,贴近事物仔细观察,或放在嘴里尝一尝。我们甚至会利用望远镜去分辨夜空中的光点是行星还是恒星。
这给大脑的预测模型带来了两个新问题:首先,它得预测自己的动作会产生何种影响;其次,它得预测怎样做才能尽可能地获取更多信息。
这种贝叶斯模型又被称为“预测加工理论”,其提出者是一位叫卡尔·弗里斯顿的神经学家,目前正在伦敦市皇后广场附近的国立神经内科和神经外科医院工作。
他告诉我:“早在1990年左右,人们就已经开始讨论大脑的贝叶斯模型了。不过相关学说的发展一直很缓慢,因为人们总是过度关注感官体验和感知信息,而忽略了运动控制、行为决策等执行方面的问题,也忽略了在收集信息、实际行动之前,大脑得先做出一个规划。这些固有观念产生了很大影响。”
的确,人们往往会认为感知和行动是两码事——我们用感官看世界,然后决定该怎么做,最后采取行动。然而,正如前文所说,我们无法看到真实的世界。我们能做的只是预测世界,然后根据新信息,以贝叶斯的方式更新这些预测。
问题在于,我们从世界中接收到的信号——神经细胞发射信号的模式、细胞分泌多巴胺的模式等——不仅取决于世界的变化,还取决于身体的变化。如果一条水平线上的视网膜细胞依次发出了信号,那这既可能是因为一道亮光在我们面前从右到左划了过去,也可能是因为我自己刚刚转了一下头,导致一束静止的光在视野中产生了位移。因此,我们的大脑不仅需要预测世界传来的信号,也要预测我们身体的动作会对这些信号产生何种影响,然后把后者从预测中排除出去,让信号变得清晰稳定。
不仅如此,我们已经知道,大脑想要尽量降低预测偏误,为此它可以改变自己的信念,使之与世界相符。比如我有很大的把握认为咖啡杯中有热咖啡,但我拿起杯子时却发现它是凉的,于是我不再相信之前的判断了。另一方面,大脑也可以改变世界信息,使之与自己的信念相符。比如我可以去烧一壶热水,重新冲一杯热咖啡。总之,卡尔·弗里斯顿认为,所有心理活动,包括欲望和决策,都可以用预测的形式来描述。
之后我们再讲这些。下面,我们先来看一些简单的东西。
首先我们要知道,行动需要预测。如果你想移动手臂,那你的大脑就必须先预测哪些神经信号的组合可以实现这一行动。或者可以换个角度来看——大脑在发出特定信号时,它必须得预测这些信号可以让身体做出什么样的动作。
这是两件不同的事情,而且某个行动模型理论(类似的理论不止一种)认为,你的大脑会同时做这两件事,前者属于逆向模型,后者属于正向模型。克里斯·弗里思表示:“逆向模型指的是,大脑该向肌肉发送什么样的信号。之所以会存在这个问题,是因为虽然目标只有一个,比如我想伸手抓住什么东西,但是实现这一目标的方式有无数种。”
“不过正向模型是一一对应的。决定了发送什么样的信号之后,你就能精确地知道会发生什么事。”克里斯·弗里思还表示,这两种模型会并行工作,即大脑会同时思考这两件事,并用彼此检验对方。因此,如果你的目标是“端起咖啡杯”,那你的大脑既会预测哪些神经信号最符合这一目标,又会预测这样做会发生些什么,然后检查两种模型的结果是否彼此相符:“这个逆向模型是否真的可以实现我的目标?”
这意味着我们可以通过想象来练习一些技巧。具体来说,我们可以想象自己想要实现某个目标——比如我现在正在想象自己用脚的侧边来踢足球——先预测哪些特定的神经信号可以实现这一目标,再预测发出这样的神经信号会发生什么,你就可以在不采取任何实际行动的情况下,在踢球上有所进步。
另外,大脑也会预测做出某些动作之后,我们会体验到什么样的感觉,这一点也很重要。如果你正在为了赶上公交车而全力奔跑,那理论上来说公交车就会在你的视野中逐渐变大,且上下晃动。但你对公交车的实际感知却是一个稳定的、大小不变的物体,这是因为你的大脑已经预测到了它发送给肌肉的信号会对眼睛接收到的信号产生哪些影响。
之后,你的大脑会排除掉肌肉运动对世界运动的干扰(如果你奔跑的同时,公交车正向你驶来,那你当然想要发现这一点)。
此外,你的大脑还会执行一些额外动作,这些动作不是为了完成某项特定任务,而是为了获取世界中的信息。
卡尔·弗里斯顿表示:“‘贝叶斯最优解’的理念最早可以追溯至丹尼斯·林德利。如果我现在需要决定下一步该收集哪些数据,去哪里收集数据,那最契合的问题是什么?”
卡尔·弗里斯顿、阿尼尔·赛斯等人认为,对于感知理论来说,这一思想已经变成核心问题。大脑不只会被动地感知,也会主动地搜寻信息,以减少世界中的不确定性。阿尼尔·赛斯表示:“你可以把它看成某种用来规划行动的工具。这些行动的目标,是立即达成预期目标,或者是最大化信息接收量。”
“眼跳”就是一个很好的例子。正如前文所述,虽然表面上看,你似乎可以看到视野中的所有事物、所有细节,但事实并非如此。因为只有视网膜的中心,即“中央凹”,才能清晰地分辨图像或颜色,其余部分则由大脑来填充(预测)。
假定你从一副扑克牌中随机抽取了一张牌,一开始你不去看它,使其保持在视野之外,之后慢慢将其移动到视野中。这张牌刚到视野中的时候,你无法分辨出它是红牌还是黑牌。
为了做到这一点,你的大脑会控制中央凹左右快速移动,这种快速移动的方式就是所谓的“眼跳”,它的英文是“saccade”,发音为“sack-ARD”。这种移动的速度是如此之快,以至于在其他人看来,你的瞳孔就像在瞬间移动一样——根本看不到眼球的运动,只能看到瞳孔位置的变化。
那么,眼跳具体会跳向何方呢?一种可能是,它们会跳向视野中事物最突出、最亮的方向,比如大量绿点中的一个红点,或大量水平线中的一条垂线。那么,这是一种自下而上的感知模型吗?场景中的细节会引导我们看向何方,引导我们建立对世界的理解吗?
不是的。研究人员通过实验证明,事实恰恰相反——我们预计动作会发生在哪个方向,眼跳就会跳向哪个方向。比如,你在打网球,那你的瞳孔不会随便被什么事物吸引,而是会跳向你预估的网球的运动方向。某篇论文24表明:“眼跳现象中,视线会落在网球即将抵达的地方。而且最关键的是,落点被锁定之后,没有任何东西可以在视觉上将落点和周围的背景区分开。”
换句话说,视线会落在即将出现的某个重要的地方,这样做可以让大脑尽量减少不确定性。比如在网球比赛中,由于球的速度实在太快,我们的眼睛无法实时追踪。此时大脑会预测网球轨迹中最重要的信息最密集的点,比如,对手发球时,最重要的点就是对手球拍与球的接触点、球的落地反弹点,以及球与你的球拍的接触点。网球运动科普网站“Fault Tolerant Tennis”(在失败中提高网球技术)这样描述该过程:“网球来回穿梭的时候,你会反复使用同一种视觉模式——预测网球的位置。眼跳现象会将视线锁定在某个位置,直至网球抵达该点,此时你会短暂地追踪到网球的运动轨迹。之后继续重复这一过程。”
在这些关键时刻,网球会经过视野中的中央凹区域,所以你的大脑可以尽可能多地获取网球的飞行信息。也就是说,如果你预测错了,那错误会显而易见。如果你预测对了,那你就能获取大量有效信息,从而推测出下一个关键点在哪里(相当于预测出下次眼跳的方向)。
当然,这也意味着感知需要丰富的经验。比如,虽然我是个足球迷,但我并不擅长踢球。我小时候从来没踢过球,所以我现在踢球时的动作就像树胡*一样僵硬,这导致我看球时也不像其他人那样顺畅。例如,我的朋友们可以完美地预测出球员身体该出现的位置,以及球与脚的接触部位,但我做不到——他们似乎比我更能分辨出球员什么时候可以用脚背接球,什么时候勉强可以用脚尖接球。这大概是因为多年的踢球经验,让他们掌握了用脚背、脚尖接球的细微区别,知道了不同的身姿、不同的接球方式会产生哪些不同的后果。
*树胡(Treebeard),《指环王》中的角色,是最古老的树人。——译者注
很多研究都可以表明这一点。比如新手司机的眼睛往往只会盯着前方的道路,而老司机则会关注更多细节,比如前方是否有路口,附近是否存在事故多发地段。板球运动员和网球运动员更擅长预测球的落点。新手们很难预测动作在哪里发生,他们做出的预测也很不精确;老手们已经建立了完备的模型,所以他们可以从世界中获取更高精度的信息。就像一个优秀的Wordle玩家必须合理判断哪些单词能够让自己更接近谜底一样,人脑也必须合理判断去哪里搜寻信息,才能更好地构建一个世界模型。
大统一理论:
在复杂中寻求简单之美
人们为什么不能挠自己的痒痒?
或者换个问题,你可以挠自己的痒痒肉,让自己发痒吗?之所以换个问法,是因为我怕你真的可以——虽然大多数人都做不到,但有一小部分人的确能做到。
2000年,神经学家克里斯·弗里思、莎拉-杰恩·布莱克莫尔、丹尼尔·沃尔珀特共同在《神经报告》上发表了一篇论文。*这篇论文的论点很新奇——精神分裂症患者可以挠自己的痒痒。
* 虽然可能有些一厢情愿,但我的确感觉其中有些贝叶斯式的东西。克里斯·弗里思的妻子乌塔、莎拉·杰恩·布莱克莫尔的父亲科林、丹尼尔·沃尔珀特的父亲刘易斯都是或曾是自己研究领域内的顶尖人物,他们的研究领域分别是心理学、神经生物学、发育生物学。一篇论文的三位作者的亲属都是著名科学家的概率有多大?如果用著名科学家在全体人口中的比例来计算,那这一概率简直小到难以想象。不过,如果我们考虑到子承父业的问题,那这个概率会高一些,但我觉得它也不会高到哪儿去。
他们提出这个论点的原因和贝叶斯定理相关。
前文提到,我们对世界的个人体验,实际上就是我们对世界的预测——脑海中贝叶斯式的先验判断——而不是感官获取的内容,尽管预测会受到感官数据的影响。其中的关键在于,我们会更少地关注那些可以精准预测的感官数据。切记,对于一个在世界中不断运动的生命来说,你的感官数据的变化有时会来自外部世界的变化,有时也会来自自身运动的变化。你需要将二者区分开来,然后排除后者对前者的影响,只有这样,你才能感受到一个稳定的世界,并感受其中的运动(比如跑步或走路时,你不会感受到世界在晃动,尽管所有感官数据都表明世界的确在晃动)。
那些高度可预测的信号,会被大脑从来自世界的感官信息中排除出去。克里斯·弗里思表示:“身体运动时,这些动作所产生的影响会被排除掉,只留下非自身因素的运动,因为后者通常更重要。”
这既是我们可以忽略背景中嗡嗡响的噪声的原因,也是这些声音停止时我们会突然注意到它们的原因。另外,如果有段音乐一直在以每小节四拍的节奏重复播放,20分钟后突然漏掉了一拍,那你就会立即注意到这一点,因为你可以把音乐看成一种“令人愉悦的噪声”——它们具有极高的可预测性,大脑一般会将其忽略,但突然停止是无法预测的,所以此时大脑会注意到它们。
我们所有的感官都是如此。比如某个巧妙的实验表明,触觉也有这一特点。在该实验中,受试者被分成两人一组,每组当中,一名受试者需要将左手食指放到一块木板上,另一名受试者负责控制木板上的某个按钮,按下按钮之后,某个特殊装置会向下按压前者的食指。两名受试者会来回交换角色。按下按钮时的力度越大,装置压在对方手指上的力度就越大。他们的目标是按下的力度与对方一样大。
每轮实验中,受试者都会高估对方的力度,从而导致双方按压的力度越来越大。实验还研究了把其中一名受试者替换成机器的情况,机器也会按压剩下的那位受试者的手指,而这位受试者的任务是用和机器一样的力度去按压自己的手指。这种情况下,受试者仍旧会高估按压的力度(论文作者据此推测,这一机制可以解释为什么孩童间的打闹往往会逐渐升级——每个孩子都发自内心地认为,他们打人的力度与自己被打的力度一样大)。
不过,当实验中的按钮被替换成摇杆,以至于力度更难预测之后,人们在判断自己用了多大力度时会变得更加准确。这种现象符合“高度可预测的感觉会被打个折扣”的理论:我们的感觉没那么强了。
挠痒痒也会出现类似现象。挠自己的痒痒时,你的大脑可以非常精准地预测到身体即将出现的感觉。如果你轻抚我的手掌,同时记录我的大脑信号,那你会发现我大脑皮质相关区域的神经元会突然活跃起来。如果我自己轻抚自己的手掌,那神经元的活跃程度就会低很多。克里斯·弗里思在自己的书中故作严肃地写道:“自己挠自己的痒痒时,大脑会抑制身体的反应。”
另外,有意思的是,相较于普通人,精神分裂症患者很难受到视错觉的影响。“凹脸错觉”甚至可以成为一种诊断工具——某项研究发现,30%的精神分裂症患者可以看穿这一错觉,但只有10%的普通人可以做到这一点。如果你是一名医生,正在诊断某例和精神分裂相关的疑难杂症,那你不妨试试“凹脸错觉”,看看这位患者能否分清面具的凸面与凹面。
这或许是因为精神分裂症患者持有的先验概率比我们更弱。他们对世界的预测不够精准,所以,当感官数据和假说相符时,他们可以正确地看出面具的背面是凹进去的。
当然,精神分裂症也有很多坏处。比如患者经常会表示,他们的身体受到了某种外力的影响——自己的手臂移动时,他们会以为这是外力的作用。克里斯·弗里思在自己的书中提到了一个名为“PH”的患者,这名患者表示:“我的手指拿起了一支笔,但这并不是我控制它们这样做的。手指做的这件事和我一点关系都没有。”贝叶斯模型对此的解释是,PH女士对手臂运动的预测不够精确,所以手臂移动时,她无法像正常人一样,将其从个人体验中“排除”出去。换句话说,她体验到了本不应该体验到的运动,从而让她以为手臂是被别人举起来的。
视听幻觉也是这个原因。精神分裂症患者经常表示他们的脑海中有某种声音,这种现象在心理学中被称为“思维插入”。但实际上,他们只是听到了所有人(至少是大多数人)都会听到的声音,即思考时所产生的“内心独白”。*问题在于,对于大多数人来说,这些独白是高度可预测的,相关感受会被大脑抹去;但对于精神分裂症患者来说,这种感受是切实存在的,就像有人能够在他们的脑海中大声讲话一样。
* 据说不是所有人在思考时都会产生“内心独白”,这也太奇怪了吧。
面对凹脸错觉,正常人会持有很强的先验判断,认为“脸绝不可能是凹进去的”,所以就算低层级进程发现自己预测有误,和实际视觉不符,也会被高层级进程强行解释通顺:“别管了,人脸就是外凸的。”正常人会预测出头部转动带来的视觉变化,也可以预测到视网膜接收到的“噪声数据”,并将它们从体验中排除出去。
不过精神分裂症患者的先验判断较弱,他们无法如此精准地预测世界,所以同样的数据会引发预测偏误,并以警报的方式影响预测模型。由于这些预测偏误是随机的——它们不是真实事物导致的,而是感官数据中的干扰元素,或意料之外的运动导致的——大脑不得不提出一些奇怪的假说来解释它们。比如视网膜血管的脉搏跳动会让视觉数据出现有规律的节奏,正常人会排除掉这种节奏对个人体验的影响,但精神分裂患者无法做到这一点,他们可能会将其解释为“面前那堵墙壁正在呼吸”。
我举的例子是较低层级的预测,高层级预测也存在着类似现象——精神分裂症患者可能会因为在报纸上看到了和自己同名的人、看到了车牌号包含数字“13”之类的事而感到格外惊讶,因为这些事会引发预测偏误,进而迫使大脑提出额外的假说来进行解释,这就是妄想症的起因,比如他们可能会认为电视或新闻正在用这种方式向他们传递秘密信息。
挠痒痒也一样。大多数人都没法挠自己的痒痒,因为我们可以非常精准地预测到我们即将接收到的感官数据——某根手指会在这里挠痒痒,另一根手指会在那里挠痒痒——这些预测会从个人体验中排除掉。但精神分裂症患者无法如此精准地预测这些感官数据。因此,克里斯·弗里思、莎拉-杰恩·布莱克莫尔、丹尼尔·沃尔珀特提出了一个假说,即精神分裂症患者可以挠自己的痒痒——那些有幻听等精神分裂症状的人在轻抚自己手掌的时候,更有可能产生一种别人在轻抚自己手掌的感觉,进而感到“发痒,想笑”。
实验结果正如他们所料,精神分裂症患者挠自己的痒痒的效果,跟别人挠他们的痒痒的效果一样。
阿尼尔·赛斯表示:“这个实验的论题也太有意思了,谁会想到精神分裂症会具有这种特征呢?弗洛伊德学派的人是不可能想到这种假说的,只有贝叶斯学派的人或者那些认为大脑按照贝叶斯模型工作的人,才能想到这样有趣的假说。我认为一个好理论就应当具有这样的优点,即它能预测到其他理论预测不到的事物。相对论就是一个很好的例子。我不太喜欢那种大一统式的理论,搞得好像所有事物都可以被预测出来似的。好在研究表明,精神分裂症患者有某些预测不到的事。”
你有没有认认真真、
仔仔细细地看过自己的手?
虽然尚未有定论,但越来越多的人认为,抑郁症可以用贝叶斯模型来解释。不仅如此,有些科学家甚至认为人们可以用致幻剂(致幻蘑菇也可以)来治疗抑郁症等精神疾病,其原理仍然来自贝叶斯思想。
我不想过分强调这些事实。很多证据表明,大脑的确会按照贝叶斯模型来工作,就算人们最终证明致幻剂无法治疗抑郁症,那也无法影响前者。总而言之,”致幻剂治疗抑郁症”是一个不错的研究方向,而且已经取得了初步进展。下面我就给大家简单介绍一下。
首先,有证据表明,致幻蘑菇中的有效成分,即赛洛西宾(又称裸盖菇素),可以减轻抑郁症。2021年的一篇论文发现,艾司西酞普兰是目前最有效的抗抑郁药物,而赛洛西宾的治疗效果和它一样。不过我们也不能夸大其词:这只是一个小规模的实验,而且出于某些众所周知的原因,对致幻药物进行“盲法实验”是极为困难的。“盲法实验”分为单盲、双盲、三盲等,其中双盲实验指的是患者和实验人员都不知道哪些人是对照组,哪些人是实验组,双盲的目的是降低安慰剂效应对实验的影响。不过,如果你突然产生了某种幻觉,那你很可能会发觉自己被“下药”了。为此,研究人员设计了一个巧妙的方案,他们会让对照组也服用一些赛洛西宾,但剂量足够小,不足以产生幻觉。他们希望这可以给实验对象留下一些不确定性,但事实上,这种做法很难迷惑实验对象。*
* 我必须强调,这是实验环境,会受到医务人员的监督,而且实验对象都是长期遭受抑郁症折磨、治疗一直没有效果的重度患者。请不要误解这个实验,也不要去卡姆登市场随便找个人买赛洛西宾来治疗精神疾病。
类似的实验至少还有4个。不过,第一,它们都受到了同一个问题的困扰(“我说医生,我很确定自己吃的不是安慰剂,毕竟你都变成骆驼了”);第二,所有这类研究都会像顺势疗法的研究一样,存在一个小麻烦,即那些想要研究致幻剂的人,大多都是想要证明致幻剂是好东西的人。科学界中存在着一种被称为“研究者效应”的现象——研究人员会非常倾向于(哪怕是下意识地)发现他们想要发现的事物。
总而言之,根据贝叶斯模型,抑郁情绪的起因是人们对某些负面信念持有过强的先验概率。这些信念可能是“我是一个非常糟糕的人”,或“我很无能”,或“所有事都糟透了”等(抑郁有多种形式)。研究人员把这些负面信念比喻为“风景”:风景中不仅有起起伏伏的丘陵和洼地,也有高耸入云的山峰和深不见底的深渊。“你”是这片风景中的一辆小车,正在逐渐下行。位置越低,你的那些负面信念就“越真实”(负面信念和个人体验的相符程度就越高,预测偏误的程度就越低)。你会很自然地沿着低坡一直滑行下去。不过如果有人用证据“推”你一把,那你也可以走得更高一些。
非常坚定的信念,比如“人脸不可能是凹进去的”“太阳明天会照常升起”等,就相当于非常深的深渊,想要爬上去异常困难,只有足够强力的证据,才能把你从深渊中拉出来。而“我的咖啡杯里是否还有咖啡”这种很弱的信念就很好解决了,只要很少的证据就能改变它们。
如果某些证据把你困在了坑洞里,且坑洞更深处还有更强力的证据,那麻烦就大了。这种情况下你会持有一个“不真实的”信念,或者说“待优化”信念,它无法像最优信念那样预测外界数据。
如果信念强度和证据强度相当,那这就不是什么大问题。但如果你的先验概率过强,那风景中的低谷就会变成深渊,哪怕正面证据再强,那辆小车也无法向上攀爬了。
抑郁症就是这样。患者会对某些不真实的信念——“我就是个垃圾,所有人都讨厌我”——持有过高的先验概率。他们心中的那辆小车被困在了深渊中,无法向上驶入属于正常人的那片领域。
那些可以驳斥患者信念的证据——人们告诉他,其实他是一个很不错的人,爱他的人有很多——会被患者忽略掉,因为患者的先验概率太强了,以至于“我确实挺不错的”这种解释可以轻而易举地被“那些人只是为了安慰我,故意说一些违心的好话”之类的解释击溃。他们被牢牢地困在了深渊里。
加州大学旧金山分校的神经学家罗宾·卡哈特-哈里斯是上述论文的作者之一,几年前他曾告诉我:“这些人的先验概率的精度权重过高。说白了,这些人过于相信某些不理智的信念,过于相信某些偏见。”
现在话题继续回到致幻剂上来。我们都知道,致幻剂不是普通药物,它们不一定会让你快乐起来,也不一定会让你精力充沛,只是会让你对某些事物产生非同寻常的新奇感。它们会让这个世界变得陌生起来,让你产生“朋友,你有没有认认真真、仔仔细细地观察过这棵树?”之类的想法。
根据前面的模型,致幻剂的作用就是让先验概率的分布变得又扁又宽,让你感觉自己从未认真看过一棵树,从未认真看过自己的手掌。没吃药的时候,你的大脑对树长什么样子持有非常强的先验信念,这些信念可以完美地预测看到一棵树时感官会接收到什么样的信息,所以一般情况下大脑不会对树产生兴趣:“都是非常熟悉的东西,跟预测中的一模一样,没什么好看的。”
不过,如果这种先验信念没那么精确、没那么强,那来自感官的数据就会被重视起来。突然之间,你的双手变得迷人起来。数据中的那些干扰元素——通常可以被大脑解释,然后忽略掉——也变成某些重要的事物,引起了大脑的关注。你开始感觉到地板在呼吸,墙壁上出现了一张脸在盯着你。
本章前面在介绍精神分裂症时也提到过类似的内容,二者的基本思想其实是一样的。不过,理论上来讲,如果给抑郁症患者服用赛洛西宾,那他们心中的“风景”就会变得扁平。换句话说,患者心中“我是个烂人”之类的信念的先验概率就会变得没那么强了。因此,如果让患者服下赛洛西宾,同时不断地鼓励他们、支持他们,那他们心中的那辆小车就可以离开深渊,驶向更真实的山坡——那里没有“我很糟”之类的负面信念。药效过去之后,他们有希望留在那里。
理论上来说,你也可以反着来——先让先验概率扁平化,然后离开那片美好的、真实的山坡,滑向不那么真实的谷底,从而让自己产生各种妄想。罗宾·卡哈特-哈里斯告诉我,这种情况很少见,但并非不可能。所以请患者务必在专家指导下服药。
正如我前面说过的那样,这种治疗方案尚未有定论。相关理论可能是对的,也可能是错的——我还看到过其他理论,认为抑郁症可以理解为“患者对神经预测的信心不足”——致幻剂是否真的可以改善抑郁心理还有待观察。即便致幻剂真的有效,实际治疗时也要面临巨大的社会争议和监管难题——就连研究许可都很难获得,而且根据英国和美国的现行法律,开具含有致幻剂的处方是非法行为。不过,不管怎么说,这的确是“大脑按照贝叶斯模型工作”假说的一个美好的临床应用。
上帝保佑!
精神病学家、狂热的贝叶斯主义者、聪慧绝伦的斯科特·亚历山大曾发表过一篇题为《上帝保佑!希望我们能够理解卡尔·弗里斯顿的自由能原理》(God help us, let’s try to understand Friston on free energy)的文章。
前面我们曾提到过卡尔·弗里斯顿这个人,他很有可能会成为预测编码理论、贝叶斯大脑模型领域中最伟大的先驱。只要读过相关领域的论文,你就会发现,想要避开他的名字去写一篇论文简直是一件不可能的事。另一方面,卡尔·弗里斯顿的研究成果极为晦涩难懂。推特上面甚至有一个名为@FarlKriston(弗尔·卡里斯顿)的恶搞账号,专门用来调侃卡尔·弗里斯顿的理论到底有多晦涩。
卡尔·弗里斯顿对大脑的贝叶斯模型进行了拓展。前面我们曾把预测编码理论解释为“大脑解释世界、预测世界的方式”,比如大脑该如何解释那些模棱两可的神经信号?如何移动眼球才能以最佳方式收集信息?等等。但实际上,卡尔·弗里斯顿的理论远比本书所采用的这种解释复杂得多,“最小化预测偏误”并不是“解释世界、预测世界”那么简单。在卡尔·弗里斯顿构建的模型中,它就是我们所有行为的“基本动机”。饥饿、性欲、无聊——所有的需求和意愿——都可以理解为“大脑正在努力缩小自上而下的预测与自下而上的感官数据之间的差异,即先验概率分布和后验概率分布之间的差异”。
没错,按照这种理论,“饥饿”完全等同于“很有把握地预测自己正在吃三明治,但预测与事实之间存在偏误”。
不仅如此,卡尔·弗里斯顿认为所有生命的基本驱动力皆是如此。无论是细菌、老鼠,还是鲸类,从数学的角度来看,它们都在努力缩小预测和实际体验之间的差异。
卡尔·弗里斯顿还提出了“自由能原理”。“自由能”这个词最初来自物理学,常见于热力学或量子力学。热力学中,自由能指的是可以用来做功的能量,比如蒸汽机中的蒸汽能量。
卡尔·弗里斯顿认为,这些数学形式同样也可以用于信息论当中。这种情况下,自由能就变成本章一直在讨论的预测偏误。人们的大脑非常厌恶预测偏误,总是希望将其最小化。
但很显然,大脑想干的事不止这一件,你也不是只关心认知问题。当迎面开来一辆公交车,你赶紧从马路上躲开时,如果说你是在预测自己如何才能不被公交车撞到,这似乎有点说不通,你只是不想被撞而已。但卡尔·弗里斯顿不这么想。
我们先来看看原始的单细胞生物的情形。它们最基本的目标,就是让体内的东西与体外的东西保持不同。
某种意义上来说,这就是生命的全部内容。任何任其自由发展的系统,最终都会倾向于变得与环境一致。一杯热饮最终会降至室温,同时稍微提高一下房间的温度。一杯冷饮最终也会提升至室温。一个气球最终会慢慢瘪下去,直到压力与大气压一致。这就是熵增原理。系统越有序,熵值越低;系统越无序,熵值越高。自然状态下,宇宙的熵值会越来越高。也就是说,一个有序的系统,比如温暖房间中的一杯冷饮,最终会变得无序、与环境一致。
对于生命来说,变得与环境一致就意味着死亡。如果我的体温和环境保持一致,如果我体内的化学物质的浓度和外界保持一致,那我的生命就会消亡。任何生命皆是如此。所以,所有生命、所有自组织形成的事物,都必须保持自己和宇宙之间的边界,必须让内部的温度、压力、化学物浓度保持在恰当的水平。也就是说,它们必须尽力让熵值最小化。
一个最基本的单细胞生物不会做出“脸不可能是凹进去的”这样的复杂预测,但它会想办法让体内化学物质的浓度、流体压力、温度之类的指标保持在特定水平,从而让体内的各种进程可以正常工作。它无法直接读取这些信息,但它会像卡尔曼滤波(本章前面曾提到过)一样使用间接证据。比如,如果想要估算体内的盐分浓度,那它可能会预测一下每秒钟穿过细胞膜的钠离子数量(显然,这只是某种算法,而不是意识)。
问题在于,只有在预测正确的情况下,这些生命才能生存下去。它们不可能根据信息更新预测模型,然后感慨“不好,体内的钠离子浓度太低了。我最好重新预测一下,我到底需要让多少钠离子穿过细胞膜”,因为这种情况下它们早就死了。
减少预测偏误的方式可以分为两种:一是改变自己的预测,二是改变世界,使之与预测相符。因此,为了提高体内的钠离子浓度,细菌可能会代谢掉一些食物,或甩动它们小小的鞭毛,爬到钠离子浓度更高的环境中。
该模型当中,”欲望”和“预测”是一回事。细菌总是想要减少自己的预测偏误(或者说“自由能”),无论它预测的是什么。如果它预测的是当天的天气,且预测出现了偏误,那它就可以更新自己的预测模型。下次再遇到类似情形时,它就会做出不同的预测。
不过那些关乎生死的预测是不会变的。你几乎无法改变体温的预测模型或血糖水平的预测模型,因为它们的变化幅度极小。这种情况下想要降低预测偏误,唯一的方法就是改变世界,或者改变自身在世界中的位置,从而让预测和现实相符。
卡尔·弗里斯顿认为,所有自组织系统都是这样。虽然我们一直在谈论细菌,但人类其实也存在着同样的问题,我们也得想办法维持身体的稳态——“我们”和“宇宙”之间存在着明显的边界,“自我”只能存在于特定的热力学极限和化学极限之内。不过人类等复杂生物在某些方面确实可以比细菌做得更好——我们可以根据未来的走向去管理周边的环境,从而保持“氧气足够”“身体没有燃烧起来”等预测一直为真。用数学语言来说就是,我们希望将预测偏误的期望值、惊异度的期望值降至最低水平。
卡尔·弗里斯顿表示:“与‘稳态’相对应的是‘应变稳态’。”前面我们提到过,稳态指的是通过调整周边环境和身体,将内部环境维持在稳定水平。比如,如果你的血糖升高了,那大脑就会命令胰腺释放更多胰岛素。卡尔·弗里斯顿表示:“应变稳态则是一种经过深思熟虑的、非常有计划的行为,它可以尽量避免稳态修正。”
卡尔·弗里斯顿表示:“举个例子。现在我饿了,但还没有出现低血糖的症状。不过我推算了一下,假如我按照计划继续工作,那根据身体的预测模型,半小时后我就会低血糖。于是我又评估了另一个计划:离开座位,去喝一杯香浓的、甜甜的奶油咖啡。”这个计划降低了未来的“惊异度”,因为这样未来就不太可能出现 “身体因血糖过低陷入休克状态”的情况。
再强调一下,根据自由能原理,你的大脑会以同样的方式对待“我出门不会被淋湿”和“我不会因低血糖而休克”这两种预测。它总是想让因预测偏误而产生的惊异度最小化。不过这两种预测还是有区别的:如果新信息表明前一个预测有误——你看到外面正在下雨——那它会有两种解决方案。第一种是改变世界,让现实和预测相符,比如拿一把伞再出门。第二种是改变自己的预测,让预测和现实相符,比如接受自己会被淋湿的事实。这种情况下你可以根据新信息更新先验判断。
但“我不会因低血糖而休克”这一预测不能这样做。你对世界持有某种非常强、非常确定的先验判断,它不会发生变化。尽管从数学的角度来说,它仍旧可以按照一般的预测偏误来处理。
卡尔·弗里斯顿表示,这些非常基本的先验判断已经在进化过程中植入我们的大脑。虽然我们知道血糖水平、体温、氧气含量、身体完整性显然都属于硬植入先验判断,但我们不知道硬植入先验判断具体都包含哪些内容(社交欲望和性欲应当也算是其中之一,尽管它们出现的时间比前面几种晚一些)。婴幼儿时期,我们只有这些硬植入先验判断——我们会预测自己不会饥饿,不会寒冷,不会受伤。“从刚出生开始,你就会根据信号学习预测。比如你很快就可以弄明白,你一哭妈妈就会出现。这些事都是需要学习的。你可以把某些事设定为优先级最高的目标,然后用先验概率去约束它们,努力去实现它们。这样做可以让你活下去。”
自由能最小化不仅意味着你需要改变自身状态来避免预测偏误,还意味着你需要尽可能多地搜寻与世界相关的信息,以便做出更好的预测:确定搜寻信息的最佳策略,其实就像 Wordle猜词游戏一样——你得先排除掉一些错误的字母,而不是一上来就猜测谜底。构建更完善的世界模型,可以让你在最大程度上减少预测偏误。
婴儿会通过“蹒跚学步”来掌握肢体动作。大体上来说,这种学习方法就是随机尝试神经信号,看看不同的信号会引发什么样的结果:是腿动了一下,是眼睛眨了一下,还是打了一个嗝?卡尔·弗里斯顿表示:“这是一个很不错的例子,它可以说明人们如何让接收到的信息最大化,如何掌握世界的本质。我能干什么事?我不能干什么事?谁引发了这些结果,是我还是你?通过这种方式,婴儿可以逐渐掌控自己的身体,逐渐明白有些事自己可以控制,有些事自己无法控制。”
一开始,婴儿掌握的信息十分有限,所以他们的行动都是随机的。他们可以在“咿咿呀呀”中学习发声,通过四肢乱摆学习运动。之后他们的行动会变得越来越复杂,他们会利用每一份新数据更新自己的先验判断。我有一个刚出生的小侄女,我写这段话的时候她已经10周大了,她的学习模式就是这样的,她逐渐学会了盯着人看,并逐渐学会了用手抓东西,几乎每周都有新进展。当她发现某些事情可以最小化自由能之后,比如伸手去拿食物,吃不同的食物,选择购买哪个牌子的比萨,她的个人偏好就会变得越来越复杂。
卡尔·弗里斯顿表示:“随着年龄的增长,偏好的增加,你驱使身体在这个世界中进行各种活动的熟练程度也会不断增加。达到一定熟练程度之后,你就有了‘花费几个月的时间,提前筹划与某人在另一个城市的某个餐厅见面’的能力。”
在卡尔·弗里斯顿的理论当中,这些事情和“细菌预测了高钠离子浓度,发现预测偏误,于是采取行动,寻找更多盐分”在数学上没有任何区别。只不过人类对世界的预测模型更深入、更复杂,看得也更长远。
“病毒之类的生命和你我之间的区别就在于,我们可以看到更远的未来,因为我们拥有多层级的深度预测模型。”
卡尔·弗里斯顿认为,每个人都可以把自己看成一名优秀的科学家。我们希望了解这个世界,不断构建更完善的世界模型,想办法找到信息最大化的搜寻方式,尽可能地降低“我们预计会从世界中接收到何种信号”与“我们实际从世界中接收到了何种信号”之间的偏误。不过在某些特定情况下,我们并不想知道某些体验是什么样的。如果我们纯粹只是想要探寻真理,只想满足好奇心,那我们就会以和“想要尝尝蓝纹奶酪是什么滋味”一样的心态,去了解手掌被火焰灼烧的感觉、两天之内不吸入任何氧气的感觉。如果我们预测,从世界中获取信息的最佳方式是用鱼叉戳自己的眼睛,那我们就真的会这样做。不过由于硬植入先验判断的存在,这样做会产生巨大的预测偏误,所以我们并不会这样做。卡尔·弗里斯顿表示:“某种程度上而言,我们每个人都是科学家,每个人都是贝叶斯式的预测机器。不过某些先验判断是固定不变的,因为一旦它们发生了变化,我们就会死去。人死之后还怎么继续预测世界、获取信息呢?所以在这种情况下,我们必须改变周边环境,使其和先验预测相符。”
这里我的措辞应当尽量谨慎一些。我很喜欢自由能的理念,我希望自己讲的没什么问题,毕竟相关理论太难了。不过,我觉得卡尔·弗里斯顿会说,目前这只是一个数学框架,还算不上一个完善的科学理论。另外,大家也不必用预测、自由能、信息获取这些术语去描述所有事物——我们可以直接理解为,我们有各种各样的欲望,这些欲望通常可以保证我们存活下去。自由能的概念可以简化理论模型,将各种情况囊括为一个词语,这很符合奥卡姆剃刀原则,但这并不能证明它是正确的。而且“饥饿就相当于你错误地预测自己已经吃过饭了”这种说法会让很多人感到非常怪异。但不管怎么说,它的确是一个很优雅的理论。
从科学中的贝叶斯,到贝叶斯式的大脑,当对贝叶斯定理有了一定了解之后,你会发现这条定理简直无处不在。
本文授权节选自《贝叶斯定理:清晰思考与决策的科学工具》
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
![]()
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.