网易首页 > 网易号 > 正文 申请入驻

贝叶斯认知模型  逆向工程思维21

0
分享至

贝叶斯认知模型逆向工程思维

Bayesian Models of CognitionReverse Engineering the Mind

https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html

第21章《推断的极限与算法概率》(The Limits of Inference and Algorithmic Probability)是《认知的贝叶斯模型:心智的逆向工程》(Bayesian Models of Cognition: Reverse Engineering the Mind)中的关键理论章节,其核心在于将贝叶斯推理与算法信息论(特别是柯尔莫哥洛夫复杂性)联系起来,从而为认知科学中一些根本性问题(如先验的来源、简洁性原则、语言习得等)提供统一而深刻的解释框架。

以下是本章的重点概述:

1.核心思想:概率与程序的对偶性

  • 贝叶斯推理依赖于先验概率,但“先验从何而来”一直是理论难题。

  • 本章提出:每一个概率分布都可以由一个(概率)程序生成;反之,一个程序定义了一个概率分布。

  • 因此,为模型分配先验,等价于为生成该模型的程序分配先验

  • 这一视角将“信念”问题转化为“编码”问题。


4.认知应用三大领域知觉(Perception)

  • 知觉系统寻求对感觉输入的最简重构(压缩)。

  • 解释现象如:透明运动、图形-背景组织(Kanizsa 三角)、橡胶手错觉等。

  • 简洁编码自然导出对象的层级表征因果结构的初步推断(通过程序中的算法-数据结构分离)。

相似性与范畴化(Similarity & Categorization)
  • 两个表征的相似性 = 将一个转换为另一个所需最短程序的长度(条件柯尔莫哥洛夫复杂性K(y∣x) )。

  • 解释语言、视觉中的结构化相似性(如句子变换、人体姿态变化)。

  • 可导出Shepard 的泛化普适定律

  • 范畴化可视为对项目本身(而非仅相似性)的最简编码。

语言习得(Language Acquisition)
  • 回应乔姆斯基“刺激贫乏论”:过度泛化可通过贝叶斯/简洁性机制自然消除,无需强先天语法。

  • 所罗门诺夫收敛定理证明:理想学习者能从正面语料中学会任何可计算语言,错误总量由语言复杂度限定。

  • 实证研究表明:真实语言输入量下,许多“难题”结构可在合理时间内学会

  • 语言的可学性源于语言与认知偏好的协同演化,而非纯生物先天性。

5.对“先天性”的重新理解
  • 认知系统可能内置表征基元(如对象、属性、运动一致性),但这并非僵化的“理论”,而是使常见世界结构易于编码的偏置

  • 类比于编程语言中的标准库函数:不禁止表达复杂事物,但让常见模式更简洁

  • 这种偏置对应于一种柔性先验,偏好自然解释,但不完全排除异常可能。

6.挑战与未来方向
  • 数据收集过程的建模

    :单纯压缩数据可能误将感知/注意偏差当作世界规律(如哈曼的天鹅例子)。

  • 需将主动感知、注意、探索策略纳入编码框架(即区分“世界结构”与“感知者行为”)。

  • 如何从简洁编码中涌现对象与属性,仍是基础问题。

总结

第21章通过将贝叶斯认知科学与算法信息论深度融合,不仅为“先验从何而来”这一经典难题提供了优雅解答,还统一了知觉、相似性、语言习得等多个领域的简洁性解释。它表明:心智不仅是一个概率推理机,更是一个高效的压缩器——在纷繁的感觉流中,不断寻找最简短、最优雅的程序来解释世界。这一视角既保留了贝叶斯框架的规范性力量,又赋予其计算与表征层面的深刻内涵,为理解人类智能的本质开辟了新路径。




21 推理的极限与算法概率

在本书中,我们一直将主观概率视为我们基本的理论构建模块,并且我们使用贝叶斯更新作为一种通用方法来根据新证据调整信念。确实,这样做有充分的理由:先验论证表明,概率法则定义了一种关于不确定性的独特理性推理方式;并且,在建模广泛而深刻的认知问题方面,这种方法的有效性已有具体例证,如本书及更广泛的贝叶斯认知科学、统计学和机器学习文献所示。

然而,学习和推理是如何开始的呢?在分析任何推断问题(例如,学习一种语法、感知世界的模型或朴素物理学理论)时,理论家首先需要指定一组候选生成模型;然后为这些模型(及其参数)分配初始先验概率。只有在此之后,才能通过贝叶斯更新过程开始与数据进行对照。

但分配先验概率似乎既给认知科学家带来了一个永恒的挑战,也给正在被建模的大脑计算机制提出了一个问题。一个特定的语言语法、视觉场景的层次模型或物理理论的先验概率是什么?这样的概率如何能被很好地定义,尤其是考虑到大多数此类模型根本不会被直接考虑的事实?举一个极端的例子,一个科学推理的贝叶斯模型似乎要求为广义相对论分配一个先验概率,而这很可能被认为是在任何用该理论解释物理数据之前就已存在。相反,如果先验概率是在部分数据已被检验后才被分配的,那么作为贝叶斯更新起点的“先验”这一概念本身似乎就完全被违背了。

柯尔莫哥洛夫,概率论标准公理化体系的创立者,本人非常关注概率是否能作为一个基础性概念(Kolmogorov, 1965)——并在他寻找替代性基础的过程中(独立地并行于Chaitin (1969) 和 Solomonoff (1964, 1978) 的工作),他发展出了一种在计算机程序与概率之间建立深刻联系的理论:柯尔莫哥洛夫复杂性理论(Li & Vitányi, 2008)。这种通用方法后来也被发展成一种用于机器学习和统计学的实用方法,最常被称为最小描述长度(例如,Grünwald, 2007; Rissanen, 1987, 1989)以及相关的最小消息长度(Wallace & Boulton, 1968; Wallace & Freeman, 1987)原理。

概率与程序之间的联系,与一个更广泛的观点相呼应:即在最一般的形式下,大量的归纳推理并非关乎拟合特定类型的统计模型,而是寻找能够生成现有数据的程序(参见第18章)。这一观点在诸如Church(Goodman等,2008a)这样的概率编程语言中得到了具体体现。它提供了一种关于概率的迷人双重视角:程序或概率二者均可被视为基本要素。

这一方法对认知科学尤其具有吸引力,因为其核心思想是将大脑视为一种计算机器。事实上,正如我们将要看到的,我们可以从一种新的视角来看待贝叶斯推理——即寻找能够解释现有数据的最短可能程序。这将贝叶斯推理与一个悠久且表面上看似不同的智识传统联系起来:该传统认为,知觉、语言习得和科学探索都由对简洁性的追求所驱动,其源头可追溯至奥卡姆的威廉(William of Ockham)、艾萨克·牛顿(Isaac Newton)、恩斯特·马赫(Ernst Mach)和阿尔伯特·爱因斯坦(Albert Einstein)(Baker, 2022),并延续至更近的研究,例如Attneave(1959)、Blakemore、Adler与Pointon(1990)、Feldman(2000)、Goldsmith(2001)、Leeuwenberg(1971)以及Mach(1883/1919)等人的工作(此处仅列举部分)。此外,我们还将看到,将关注点从概率转向程序,有助于回答“先验从何而来”这一问题,并为认知科学的多个具体领域带来理论洞见。我们首先从先验问题入手,并为具体起见,先聚焦于一种特定的编程语言(即Church)。

21.1 一种通用的先验生成方法

使用像Church这样的语言,我们可以用概率程序编码大量概率分布。如果大脑拥有一种用于编码此类程序的表征语言,那么至少在原则上,我们可以设想大脑可能具备一种通用机制,用于表征和采样那些能够捕捉外部世界结构的概率分布。

从这一视角出发,思考如何学习外部世界的结构是十分有趣的。感知、语言或科学数据被观察到;而一个理想的学习者可以被假定为试图找出在给定这些数据条件下最可能的程序。这当然是一个经典的贝叶斯推理问题。

进行贝叶斯计算需要确定:对于任意一个特定的概率程序所编码的概率分布,该数据出现的概率(即似然)是多少。计算这一似然值在一般情况下当然是计算上困难的——但至少在原则上它是明确定义的,并且可以通过标准方法(例如马尔可夫链蒙特卡洛(MCMC)采样;参见第6章)进行近似。

但是,某个任意的概率程序所指定的概率分布的先验是什么呢?某些概率分布(例如独立的抛硬币、统计学中的线性统计模型等)在直觉上显然比其他分布(例如具有数百个任意参数的多项式)更有可能。然而,暂且抛开直觉不谈,我们如何才能以一种系统且令人信服的方式来为概率分布分配先验呢?

虽然直接为概率分布分配先验概率并不显而易见,但为对应的概率程序分配先验却要容易得多。一种简单而有力的思路如下:假设我们用二进制符号串(选择二进制字母表仅为方便起见)来编码概率程序。再假设这些程序——如同大多数传统编程语言(包括Church这样的概率编程语言)一样——对应于所谓的前缀码(prefix codes),即没有任何一个程序是另一个程序的前缀。

现在设想使用最简单的机制来生成程序:通过抛硬币来无限地生成二进制序列。大多数时候,当然不会生成任何有意义的程序,而只是一串无意义的二进制字符串。但偶尔,这个二进制序列会纯粹出于偶然地恰好编码了一个概率程序;并且(由于前缀性质),每一个无限长的抛硬币序列至多只会生成一个这样的程序,因此也至多对应一个概率分布。

这样一来,我们就得到了一个对概率程序(以及它们所编码的概率分布)极具吸引力的生成模型:一个概率程序被生成的概率完全取决于其长度。也就是说,对应于n个二进制符号的程序,其概率为 2−n。

简而言之,我们可以根据简洁性(simplicity)为概率分布分配先验概率,而这里的简洁性由编码该分布的程序长度来衡量。因此,我们关于“一连串独立的二进制抽样或线性统计模型应被赋予较高先验概率”的直觉,就对应于这样一个事实:它们可以用Church语言中寥寥数行代码来编码。

这种思路为Church程序(以及它们所编码的概率分布)提供了一种普适的先验分配方法。此外,它也捕捉到了一种广泛存在的直觉:无论是在知觉还是科学中,先验概率都应依赖于简洁性——我们认为,简洁的概率分布对应较短的Church程序,因而具有较高的先验概率。这与科学和日常思维中对优雅思想的普遍偏好相一致(参见Baker, 2022),也解释了我们为何对看似过度复杂的理论抱有反感和怀疑。

到目前为止,我们勾勒出了一种为程序赋予先验概率的方法——但我们真正需要的,是一种为关于世界的模型分配先验的方式。而同一个模型可以用无穷多种不同长度的程序来编码。不仅如此,理想情况下,我们不希望自己的先验概率过度依赖于Church或我们恰好选择的某种特定编程语言的具体细节(另一方面,如果我们并不只是将这种语言视为一种有用的技术工具,而是将其视为关于心智表征的假设,那么我们或许确实希望先验在某种程度上受到表征语言的影响)。

在本章中,我们将概述如何利用柯尔莫哥洛夫复杂性(Kolmogorov complexity)理论,将这种思路加以拓展并精确化。我们将看到,即使脱离Church这类特定的概率(或常规)编程语言的具体细节,依然可以得出对认知科学具有重要意义的结论。此外,我们所概述的这一框架还具有一些引人深思的理论含义。我们将重点介绍它在认知三个领域中的理论应用:知觉、相似性与语言。

不过在此之前,我们首先在最初引入的语境下非正式地介绍并探讨一些核心概念:即如何定义一个关于概率分布的通用先验(universal prior)。关于其背后数学基础的全面技术性介绍,我们推荐读者参考Li与Vitányi(2008)的教科书。尽管该数学框架是抽象的,并不绑定于任何特定的表征语言(事实上,其核心数学理论早在现代概率编程语言出现数十年前就已发展出来),但以更具体的形式来思考这些思想仍是有益的。

21.2 从程序到先验

正如我们所指出的,贝叶斯推理中最基本的问题之一,就是为假设分配先验。人们或许会认为,最“中性”的先验(即反映最少背景知识的先验)应当为每个假设赋予相同的概率。然而,当假设数量无限时(这正是大多数有趣的认知模型所面临的情形),这种方法行不通。因为如果我们为每个假设分配一个特定的概率 δ,那么所有假设的概率之和(我们假设这些假设互斥)就等于无穷多个 δ 相加,其结果为无穷大,尤其会大于 1,从而违反概率的基本规则。

与之前一样,我们将自己限制在可计算的假设范围内,更具体地说,限制在 Church 程序上。关键在于,这一限制意味着假设的数量是可数的。这是因为可计算假设的数量不可能超过 Church 程序的数量,而 Church 程序的数量显然是可数的。(尽管我们经常在书写 Church 程序或其他模型时使用我们认为是实数的量,但这只是为了方便,实际上只是对前文所述可计算表示的一种简化。)

那么,为可计算假设分配先验概率的最中性方式是什么呢?直觉上,似乎很自然地应给予简单假设更高的先验概率——比如那些对应较短 Church 程序的假设——而对只能用很长的 Church 程序表达的假设赋予较低的概率。




21.2.2 中立性

在本书中,我们考虑了复杂度不断提高的贝叶斯模型;而构建此类模型要求我们为其参数提供某种先验。我们已简要概述了在特定情况下如何实现这一点,并且存在大量文献(尽管存在一定争议)探讨了设定先验的一般原则,例如选择所谓的共轭先验(参见第3章),或在约束条件下最大化先验分布的熵(Jaynes, 2003)。但通过将自己限制在特定类别的模型内,所有该类别之外的模型都被排除在外(即隐式地赋予其零先验概率)。相反,我们的目标是为所有可计算的概率模型提供一个先验——并且以尽可能中立的方式实现这一点。

首先请注意,根据通用先验,每一个可计算的概率分布都具有非零先验——对于每个这样的假设,都有(无限多个)程序可以表示它,而每个程序都具有正的概率。但更有趣的是,在某种意义上,通用先验给予每个假设的先验概率几乎与其他任何可计算先验所给予的同样多。具体而言,对于任何可计算的概率分布 P,在可计算的概率模型上,存在一个常数 cP,使得对所有假设 h:


粗略地说,最短代码在决定特定概率模型的先验时起主导作用。因此,我们可以专注于寻找给定数据集下我们所能找到的最短程序——而该最短代码的长度将指定相应的先验(代码越短的概率分布,其先验越高)。但一般来说,当然,找到编码某个特定可计算概率分布的最短程序在计算上是不可行的。事实上,甚至不存在一个计算机程序能够判断哪些程序确实或不能编码某个特定的概率分布。这一观察是一个有趣的推论:进一步的计算(或在心智的情况下,额外的思考)可能使我们看到,关于世界的某个特定假设可以比我们预想的更简单——当我们发现一个出乎意料的短代码来表达某个概率生成模型或任何形式的假设时,我们就应当相应地提高其先验。

这种视角的一个特别吸引人的特点是,它使我们能够有意义地理解这样一个想法:即使在这些假设尚未被提出、更不用说被积极考虑之前,广义相对论、特定语法或分层视觉模型等都可以被赋予先验。如果这些假设可以被大脑表征,那么大脑就已隐式地基于其最短表征的长度,为这些假设分配了先验。但这种最短表征不一定需要,也通常不会被知晓。

事实上,从这一观点出发,认为一个智能体可以通过反思发现更多关于自身先验的知识是有意义的。的确,发现自身的先验通常将是缓慢且部分的——因为对于任何一个特定的概率模型 M,总是可能存在比当前已提出的更短的代码。例如,詹姆斯·克拉克·麦克斯韦最初约20个方程表述电磁学的理论,后来被自学成才的电气工程师奥利弗·亥维赛(Hunt, 2005)重新表述为本科物理课上教授的四个简洁的麦克斯韦方程组:这种重述需要极其复杂的分析。如果我们用描述长度来思考,我们可以看到,通过揭示麦克斯韦理论的一种戏剧性简化形式,亥维赛表明该理论的先验概率远高于人们此前所怀疑的。

编码视角还让我们以全新的眼光看待纯粹反思的价值。我们无需不切实际地假设,在学习或科学探究开始之前,所有相关假设的先验概率就已经确立。相反,纯粹的反思(即利用现有信息而非新数据进行计算)可以在探究过程中估算和修正假设的先验。认知科学中的理论家们也是如此:如果我们发现一个我们认为高度复杂的概率模型实际上对应着一个极短的 Church 程序,那么我们将上调其先验。

编码视角也使我们得以欣赏心智表征本质的重要性。虽然不变性定理向我们保证,编程语言的具体选择并不太重要(即,对于任意两种语言,任何计算的最短代码长度仅相差一个固定的加法常数),但显然代码长度(因而先验)仍可能有相当大的差异。毕竟,开发特定编程语言的一个理由是它们特别适合表达某些类型的程序。因此,例如,一个标准线性统计模型、高斯混合模型或某种分层贝叶斯模型,用 Church 程序可能只需寥寥几行代码,但若用 Prolog 这样的逻辑编程语言来编码这些分布,则可能需要长得多的代码。因此,我们对概率模型的先验在某种程度上取决于用于表征概率分布的编程语言。因此,从认知科学的角度来看,这意味着心理上相关的先验将取决于大脑所使用的表征系统。因此,如果 Church 或类似的语言是“思维语言”的良好类比(Piantadosi, Tenenbaum, & Goodman, 2016),那么由 Church 诱导的概率模型上的先验将是心理上自然的;但如果大脑使用某种完全不同的形式体系运作,情况似乎就不会如此。当然,大量的认知科学研究致力于发展关于大脑如何表征语言和感觉输入的假说,并使用行为和神经科学方法对其进行检验。这类证据有可能帮助约束关于不同假设的认知简洁性(以及由此关联的先验概率)的假说。

21.4 贝叶斯与简洁性

我们已勾勒出概率与程序之间联系的一部分。事实上,这种联系可以在多种有趣的方向上加以拓展。例如,在相当普遍的条件下,给定某个可计算先验(即,一个可以被编码在 Church 程序中的先验),选择生成某组数据的“最可能”程序的问题,等价于寻找能编码该数据的“最短”程序(例如,在 Church 或其他编程语言中)。




概率与码长之间的这种联系,在贝叶斯认知科学与简洁性原则之间提供了一个关键纽带——即推理通过选择能够提供数据最短编码的世界模型来运作。因此,我们可以将基于贝叶斯和基于简洁性的推理方法视为并非必然冲突,而是表达相同基本思想的不同方式。

当然,需要注意的是,一个完整的贝叶斯学习与推理方法会试图捕捉所有可能模型上的完整后验分布,而不仅仅是识别出单个最可能的模型。但在实践中,诸如 MCMC 及其众多变体之类的采样方法(如第6章所述)一次只关注一个(或少数几个)模型——并且这类采样可以利用码长作为被最小化的量(例如,Geman, Potter, & Chi, 2002)。

此外,各种心理学考量表明,我们至少应认真考虑大脑一次只能表征环境单一模型的可能性。例如,人们可以将一个模棱两可的图形“看作”两个侧脸轮廓或一个花瓶(此时图形与背景已互换);但我们在任何时刻只能看到一种解释(Long & Toppino, 2004)。同样,大脑似乎一次只能解释两个重叠场景中的一个(例如,当我们在黄昏时分望向窗外时,既能专注于窗外变暗的景象,也能专注于窗玻璃上房间的倒影,但不能同时关注两者,Neisser & Becklen, 1975);当每只眼睛接收不同且相互冲突的图像时,一只眼睛的信息占主导地位,另一只眼睛的输入则被忽略(Tong, Meng, & Blake, 2006)。我们难以同时产生对一个情境的多种解释,这一困难似乎也适用于高级认知。

对现实世界情境的研究(例如,Klein, 1993)以及在实验室中的研究(例如,Johnson-Laird, 1983)似乎暗示,我们倾向于固守眼前信息的一种特定解释,并且很难构想其他可能的解释,更不用说将这些可能性纳入考量了。事实上,可以说人类推理的一个根本性偏见就是,我们倾向于在面对矛盾信息时,比理应持续更久地维持自己偏好的解释。

因此,假设大脑一次只能表征一组视觉、语言或科学数据的一种解释。那么,根据此处概述的等价关系,我们可以将一个理性的认知主体视为在寻找对可用数据的最简解释(其中简洁性根据某种特定的编程语言来衡量),或最可能的解释。相比之下,在知觉、统计学、科学哲学及其他领域,贝叶斯方法与简洁性或程序化方法之间长期存在对立(例如,Leeuwenberg and Boselie, 1988; Rissanen, 1989)。但这些方法之间的等价性提示我们,应转而思考何时采纳每种视角在理论上是有用的。

在考虑决策制定时(参见第7章),采取概率论的起点尤其有帮助,无论是涉及抽象计划还是运动控制的细节。在这里,必须估算某个选择或行动的期望值或期望效用——而计算期望值需要以概率的方式进行思考。此外,通常很有用的是考虑一个有机体在其自然环境中对真实世界频率的适应程度,这可以通过分析自然视觉图像、听觉景观、语言语料库及其他数据的统计特性来实现(Atick & Redlich, 1992; Jurafsky, 1996; Olshausen & Field, 1996; Parise, Knorre, & Ernst, 2014)。

但当理论家构建假设性的生成模型时——无论是在语言、知觉还是朴素物理学领域——从以下问题出发往往更为自然:我该如何编写一个程序来生成句子、视觉图像或自然场景?由生成模型创建的概率分布是计算机程序内必须做出的选择所附带产生的结果——例如,在一个场景的生成模型中,会有关于物体精确位置、方向、颜色、光照位置和性质等无穷无尽的选择。当然,一旦我们拥有一个能够生成句子或场景的程序,我们就可能将其输出与从真实世界数据中收集到的统计数据进行比较;甚至可能根据此类数据调整生成模型(例如,我们可以注意到光线往往来自上方;某些颜色比其他颜色更常见,等等)。但起点是以代码而非概率的方式来思考。

因此,对于理论家而言,构建一个生成模型本质上就是精确指定一个生成过程——而这本质上是一项编程任务(例如,编写一个 Church 程序来实现该过程)。这项编程任务,如同任何编程任务一样,受我们创造尽可能优雅和简洁的表征与算法的需求所引导。事实上,撰写基于这些模型的数学模型和程序的美学标准强烈偏向简洁性(这一点在本书描述的所有生成模型中都有所体现)。理论家甚至不会去考虑那些复杂、混乱的模型;并不是因为它们被明确考虑并判定为低概率,而是因为它们根本不在考虑范围之内。总而言之,我们可以将贝叶斯推理既理解为概率问题(正如本书一直所做的那样),也可以理解为在一个内部表征语言中最小化码长的问题。鉴于内部表征的本质一直是心理学和认知科学的核心议题之一,以代码的方式来思考通常是特别自然的。

21.5 在认知中应用最小码长视角

为什么从编码角度看待认知是对标准概率贝叶斯观点的一种有用补充?原因之一是,我们有时对自己关于心智表征的假设比对隐含的主观概率更有信心。毕竟,认知科学充满了关于形状、类别、面孔、变换,或语言及音乐结构如何被表征的提案(无论使用逻辑公式、特征向量、各种层级表征,还是音系学、形态学、句法理论等内容)。这些表征使得某些事物易于编码,而另一些则难以编码——而由于代码与概率之间的等价性,我们可以将此视为一种锚定先验概率的方式。第二个理由源于编码视角所允许的数学方法,范围从经典信息论(Cover & Thomas, 1991)到我们在此讨论的更具体的柯尔莫哥洛夫复杂性理论(Li & Vitányi, 2008)的机制。在任何科学领域,针对同一现象的不同框架常常是有用的,因为在其中一个框架中陈述、论证或证明主张可能比在另一个框架中容易得多。不同的视角也暗示着不同的概括、近似和实验检验。但最终,哪个框架最有用是一个实践性问题——我们可以采用任何能为我们正在探索的认知方面提供最有用视角的方法。为了了解最小码长视角在哪些方面可能有用,我们简要说明如何通过最小化码长的思维模式,在三个认知领域获得有用的洞见:知觉;相似性;以及语言处理与习得。

21.5.1 知觉

知觉的简洁性方法始于这样一个假设:大脑构建的环境表征,应能提供尽可能简短的编码,从而重构感觉输入——也就是说,目标是尽可能压缩感觉输入。这种关于知觉的观点至少可追溯至物理学家兼哲学家恩斯特·马赫(Ernst Mach, 1919/1883),他认为感觉数据的简化目标同样适用于知觉与科学;这一主题也出现在格式塔心理学家(如 Koffka, 2013)的理论中,以及受信息论启发的心理学与神经科学理论(Attneave, 1959;Blakemore 等, 1990),还有基于发展特定编码语言的方法(如 Van Der Helm & Leeuwenberg, 1996)。

此处我们不聚焦于具体模型,而是关注那些能被简洁性方法自然解释的定性现象类型。首先请注意,感觉世界中的任何结构或模式,原则上都可以通过寻找最简洁的表征而被恢复。例如,考虑两组随机点彼此重叠(仿佛“标记在两张透明玻璃片上”)。如果这两组点都静止不动,那么从编码角度看,区分这两组点并无优势——它们会被知觉为一个单一的、略显密集的随机点阵。相反,如果这两组点各自独立运动(仿佛这两张想象中的玻璃片以不同方式平移或旋转),那么将这些点分成两组,并分别表示每组的运动,会高效得多。若不进行这种分组,就必须独立解释每个点的运动,这将导致一种极其低效的编码。这种分组的结果就是“透明运动”(transparent motion)现象(例如 Braddick, Wishart & Curran, 2002):这些点被知觉为两个透明的片层,各自独立运动。

同样的逻辑具有广泛的适用性。图像中共同运动、具有相同颜色或纹理的部分倾向于被归为一组——因为这种分组允许对相关的运动、颜色或纹理用单一表征一次性应用,而不必为每个部分单独编码这些信息。类似地,从构建简短编码的角度看,将世界知觉为具有层级结构的物体具有天然的合理性。例如,将一只狗整体表征,是对其整体颜色、纹理和运动进行高效编码的方式;而将身体、腿、头及其他部分视为独立实体,则能高效编码这些部位的位置及其协同运动的倾向(例如头可能向一侧倾斜,腿可能伸展等)。此外,若独立编码每条腿或每颗牙齿的属性,将是低效的,因为它们共享大量属性。

再以立体视觉融合产生的深度知觉为例(例如 Julesz, 1986)。如果大脑能将双眼图像表征为彼此的位移版本,那么只需一个单一编码即可表示两幅图像,外加一个辅助编码表示相对位移。当然,这种位移由深度决定——因此该辅助编码将隐式揭示视场中每个位置的深度图。这一点同样适用于“运动恢复结构”(structure from motion):通过将视觉图像中位移速率解释为眼睛在空间中移动的结果,可隐式揭示周围表面的深度(事实上,这也表明该信息本身相对稳定,至少在环境相对静止的情况下如此)。

当然,真实图像往往复杂且杂乱。简洁性原则在此同样适用。通常,将杂乱场景编码为具有特定三维(3D)布局的完整物体的重叠模式,要比独立编码图像的各个局部更高效。举一个简单例子,考虑图21.1(由意大利心理学家兼艺术家盖塔诺·卡尼扎(Gaetano Kanizsa)创作)。我们看到一个正方形内包含若干黑色圆的部分,周围是一个方形边框。若要精确指定哪些圆的部分被“剪掉”,需要相当冗长的编码。但若假设这些部分被一个正方形所限定,而该正方形的大小和位置可用很短的代码表示,则能提供一个更短、因而更受偏好的解释。


再考虑图21.2。图像左半部分,我们看到白色“蠕虫”衬在均匀的黑色背景上;右半部分则相反。但我们为何不会同时看到相反的图形-背景关系?也就是说,为何在左侧我们不会将背景视为白色,而将不规则形状的黑色区域视为叠加其上的图形?根据简洁性原则,答案恰恰在于这种“不规则性”(irregularity)。

相比之下,这些“蠕虫”具有大致均匀的宽度,并且彼此间的宽度和间距也大致相同。如果将“蠕虫”视为图形(figure),则它们可以被简洁地编码。事实上,正是通过将“蠕虫”作为对象进行编码(而将背景视为相邻“蠕虫”之间的空白区域),才实现了简短的编码。

关于简洁性原则的解释,有三点值得注意。第一,简洁性原则提供了一种评估感知输入候选表征的度量标准,即倾向于选择对应于较短编码的表征。但不能期望感知系统总能找到最短的可能编码——事实上,为任意一组数据 D 找到最短编码的任务,通常被认为是不可计算的(例如 Chaitin, 1998)。第二,感知系统无法重构所有当前的感觉数据——事实上,视觉注意的心理学研究表明,大脑在特定时刻最多只能重构少数几个物体,其余感觉输入在很大程度上被忽略。事实上,所需重建式“分析-合成”过程所面临的计算挑战,可能是这种注意局限性的原因之一(例如 Chater, 2018)。第三,如果大脑以局部方式寻求简短编码(因为重构整个感觉输入是不可行的),那么一个关键挑战就是找到启发式方法,以判断哪些数据应被归为一组,从而可以尝试给出一个共同的解释。低层次因素(其中一些或许可以并行计算),如共同运动、纹理和时序,可能很重要;但自上而下的因素也可能同样重要(例如,我们倾向于将特别熟悉和重要的物体,如人脸,投射到偶然形成的图案中;Yuille & Kersten, 2006)。

但这些低层次因素有时会误导我们,并产生引人入胜的错觉。例如,在“橡胶手错觉”实验中(Botvinick & Cohen, 1998),一只明显“假”的橡胶手与参与者的真实手(但不可见)在时间和位置上同步地被刷子反复刷动。视觉与触觉信号的对齐暗示着这些信号必须相关联——而这种关联使得它们能够被更简洁地表征。为了建立这种关联,大脑产生了奇特的现象体验:参与者会感觉那只无实体的橡胶手“属于”自己。事实上,当要求参与者闭上眼睛并用另一只手指向“目标”手时,他们常常会指向橡胶手,而不是自己的真实手。这一假设为即时的视觉和触觉输入提供了一个简单的编码——尽管从个人全部感官经验历史和世界知识等全局视角来看,这是一个糟糕的解释。

最后,有趣的是,我们可以探讨一下:基于代码的简洁性原则是否能为人们如何推断世界的因果结构提供一种有趣的视角?人类的感知不仅告诉我们世界“是什么”,还告诉我们世界“可能是什么”。扫视一张桌面,我们可以“看到”移动桌子会同时带动其上的物体;如果我们将桌子倾斜得足够厉害,物体会滑落下来(即它们并非粘在桌面上);如果一个玻璃杯被倒置,里面的水会洒满桌面,甚至滴落到地板上,等等。

第19章探讨的一种观点是,视觉可被视为逆向计算机图形学,而这种计算机图形学部分由一个体现因果原理的“物理引擎”驱动(Wu, Yildirim, Lim, Freeman, & Tenenbaum, 2015)。纯粹的简洁性原则似乎只专注于寻找任何能最有效地压缩数据的结构。这个原则是否会与因果性地重建感知输入来源的目标发生冲突?

这个问题触及归纳推理与统计学中最深刻的问题之一。压缩似乎涉及寻找我们实际拥有的各种复杂程度的关联模式,而非揭示一种因果结构——后者能帮助我们预测,如果世界以各种方式被改变(比如桌子被移动、杯子被倾倒等),我们会获得什么样的数据模式。但单纯的关联并不意味着因果关系(例如 Pearl, 2000)。这里存在许多深刻且尚未解决的问题,探索这些问题似乎很有前景。

一个引人注目的观察是,基于简洁性的知觉解释旨在通过程序来重构数据;而程序不仅可以被视为计算单一函数(即接受输入并生成输出),还可以被划分为一个算法和一个该算法操作的数据结构。这意味着,在计算过程中,我们可以提问:如果存在某种外部干预修改了数据结构的内容(而算法仍按原样继续运行),会发生什么?也就是说,程序本身是一个富含因果性的实体,它定义的是反事实(counterfactuals),而不仅仅是单一函数。因此,我们可以基于对数据结构进行假设性干预的结果来定义反事实。例如,我们可以问,一个国际象棋引擎在做出一个怪异的开局后会如何下完这盘棋,即使它永远不会自发地做出那样的走法。或者,我们可以看到,一个用于计算阶乘的递归程序,如果错误地认为 4! 的值是 17(而非 24),那么它会计算出 5! = 85。我们可以通过考虑在计算过程中对数据结构进行干预来获得这些反事实。从这个角度看,算法(被视为固定的)与数据结构(理论上可在计算过程中被修改)之间的分离变得至关重要(参见 Chater & Oaksford, 2013)——被表征为数据的部分可以被修改,而算法则是不变的。从感知系统的运作角度来看,核心问题是:重构感知数据的程序中所隐含的因果结构,是否映射到了外部世界的因果结构?例如,被分配为单个物体一部分的那些感觉输入片段(例如,被树叶遮蔽的动物),是否确实与世界上真正凝聚在一起的部分相关联(就像真实的动物那样,无论以何种方式移动都保持整体协调)?还是说它们只是毫无意义的光影模式被错误地组合在一起?

仅凭简洁性原则似乎不足以可靠地重构因果结构,因为同一个函数可以用许多不同的算法与数据结构划分方式来编码(事实上,这些编码的程序长度大致相同)。但或许可以增加额外的约束。一种可能的提议是,在控制程序长度的前提下,大脑应偏好那种将算法与数据结构划分得使算法编码尽可能短的程序;另一种可能性是,应选择算法,使其数据结构能够尽可能灵活地修改,从而产生最丰富的反事实集合(事实上,这些标准本身可能密切相关)。

这里的直觉是,感知系统应施加最松散的因果结构(从而使固定的算法尽可能最小化,并允许数据结构拥有最大的灵活性),以解释感知输入。因此,放置在桌面上的物体,除非数据明确要求(例如,即使桌子被剧烈倾斜,物体仍随桌子一起移动),否则应默认不被固定或不属于桌子的一部分;相反,地板上的瓷砖图案应默认被“粘”在地上;否则,它们如何保持几何对齐就无法解释。至于能否将这些或类似的直觉转化为一套严谨的形式化理论,用以说明如何从感知输入中可靠地推断因果结构,这是未来研究的一个问题。

21.5.2 相似性与范畴化

编码视角也为认知中一些传统上被视为更抽象的方面提供了简单而普适的理解方式。例如,假设我们考虑某种编码语言中的心理表征——这种语言可以像 Church 一样,能够表征各种层级结构,而不仅限于特征列表(Tversky, 1977)或心理空间中的一个位置(Shepard, 1957)。

我们可以进一步提问:将一个表征转换为另一个表征所需的编码长度是多少?这一想法可以用柯尔莫哥洛夫复杂性的术语加以形式化,即使用条件柯尔莫哥洛夫复杂性 K(y∣x)的概念,它被定义为将输入 x转换为输出 y所需的最短程序的长度。关于条件柯尔莫哥洛夫复杂性已有丰富的数学理论,该理论似乎捕捉到了两个表征之间相似性的一种抽象概念(Li, Chen, Li, Ma, & Vitányi, 2004)——粗略而言,如果一个表征可以通过一个很短的代码转换为另一个,则这两个表征是相似的。

这是计算机科学中一类广受欢迎的度量方法的通用表述:即“编辑距离”(edit distance),它根据将一个字符串、图、树或其他表征转换为另一个所需的特定操作集合中的操作数量来定义(例如,对于字符串,插入、替换和删除操作定义了广泛使用的 Levenshtein 距离(Levenshtein 等, 1966),以及包括转置(Damerau, 1964)和可移动子串(Cormode & Muthukrishnan, 2007)在内的多种推广形式)。编辑距离在工程、计算语言学和计算生物学中被广泛应用——例如用于纠正打字错误、匹配脱氧核糖核酸(DNA)序列,或比较图像的表征(如 Gao, Xiao, Tao, & Li, 2010)。

这种思路可以转化为一种心理学解释:心理相似性由一个心理表征转换为另一个所需转换的复杂性所刻画(Imai, 1977;Hahn, Chater, & Richardson, 2003)。

图21.3提供了一个简单示例:一个简单的几何刺激(一个正方形和一个三角形)可以通过一系列转换步骤(交换成对物体、创建新物体、用一个物体替换另一个)变为另一个刺激(一个三角形和一个圆形)。其经验预测是:所需的转换序列越长,刺激看起来就越不相似(有关数据和实验细节,参见 Hodgetts, Hahn, & Chater, 2009)。


当考虑复杂结构化对象(如句子)的表征时,这种基于转换的相似性方法尤其有用。例如,直觉上,“The cat sat on the mat”(猫坐在垫子上)与“The mat was sat on by the cat”(垫子被猫坐在上面)相当相似,而与“The cat with green eyes and a bushy tail sat on the mat”(有着绿眼睛和蓬松尾巴的猫坐在垫子上)则稍显相似,因为存在语言上自然的变换(例如被动语态转换、添加关系从句)能将一个句子变为另一个。同样,“The cat sat on the mat”与口误“The sat cat on the mat”似乎也相当相似,其中两个起始音素(或可能是整个词)被无意交换了——这很可能是一种心理上自然的转换,因为它甚至在流利言语中也会自发出现(例如 Cutler, 1982)。另一方面,将词序随机打乱成“on cat the mat sat”则显得远不相似——事实上,我们很难想象如何从一个转换到另一个。

同样地,在考虑视觉世界的结构化表征时,我们很容易想象一个人体通过关节角度的变化改变姿势。因此,一个人从坐姿变为站姿可能被视为高度相似。同样,一个人穿或不穿毛衣、戴或不戴眼镜,在抽象层面上可能被视为高度相似——因为这种转换相当简单,尽管在图像像素层面上变化可能很大。

如果这一观点正确,那么使某种特定转换变得更易获得(例如通过近期暴露或长期学习),应会使通过该转换关联的项目显得更相似。Hahn、Close 和 Graf(2009)发现,向被试展示从一个项目到另一个项目的特定方向的变形序列,似乎会启动该方向的转换,从而以不对称的方式改变相似性判断。类似地,Langsford、Hendrickson、Perfors 和 Navarro(2017)让被试熟悉抽象图案的旋转和任意颜色交换规则,结果发现,这种先前经验增加了那些可通过这些规则更轻松关联的项目对的感知相似性。

此外,数学结果还表明,这种基于转换的相似性方法(以条件柯尔莫哥洛夫复杂性表达)能自然地导出 Shepard(1987)著名的“泛化普适定律”(universal law of generalization),该定律在广泛的实验情境中将相似性与混淆性联系起来(Chater & Vitányi, 2003b)。

很自然地,我们可以设想,一个关于相似性的心理学理论应能自然地映射到范畴化理论中,前提是范畴应将相似的事物归为一类。事实上,有一种心理学模型直接采取了这一路径:Pothos 和 Chater(2002)以相似性数据为起点,运用简洁性原则寻找能最高效编码这些相似性数据的范畴(其关键假设是,在其他条件相同的情况下,同一范畴内的项目比不同范畴的项目更相似)。

但另一种方法——更贴近本书所述的贝叶斯范畴化方法(参见第5章和第9章)——则是运用简洁性原则寻找能最高效描述项目本身(而非它们之间的相似关系)的范畴。事实上,机器学习中最早应用代码最小化的研究之一就采用了这种方法(例如 Wallace & Boulton, 1968)。

Feldman(2000, 2003, 2006)应用编码方法对人类范畴化的经典实验(Shepard, Hovland, & Jenkins, 1961)进行建模:研究人们如何学习所谓的布尔概念(即由逻辑规则定义的范畴)。被试会获得某一范畴的正例和反例,其中每个项目具有三个二元维度(例如形状[三角形 vs 圆形]、大小[大 vs 小]、颜色[深 vs 浅])。Feldman 通过描述该范畴的最经济公式中非逻辑项的数量来衡量编码复杂性(例如,“非三角形”复杂度为1;¬(B∧C)∧¬A复杂度为3;(¬A∧¬B)∨(A∧B∧¬C)复杂度为5;(¬A∧(¬B∧¬C))∨(B∧C)∨(A∧¬B∧C)复杂度为8,其中 A、B、C 为特定的二元特征)。Feldman 发现,这些公式的复杂性成功预测了人类被试从例子中学习这些概念的难易程度。

21.5.3 简洁性、学习与语言

基于简洁性的视角也为语言习得何以可能这一问题提供了有趣的见解。我们在第16章讨论了语言习得与加工的具体贝叶斯模型。此处,我们转而探讨一个更一般性的问题:学习——尤其是语言学习——在何种意义上是可能的。这一问题一直颇具争议,因为有颇具影响力的观点认为,学习(特别是语言学习)必须依赖非常强的先天约束。

乔姆斯基(Chomsky, 1965, 1980)主张,仅凭有限、不完整且常常带有噪声的语言输入语料库来学习语法是不可能的,除非存在语言特异性的先天约束,而这些约束必须强大到几乎包含了语言的完整蓝图,仅留下一些区分不同语言的“参数”以及词汇和习语清单需要后天习得。这种思路似乎被形式学习理论中的一些“否定性”结果进一步强化了。这些结果最早由Gold(1967)提出,并在此后得到广泛发展(如Jain, Osherson, Royer, & Sharma, 1999 所述),似乎表明:仅凭经验进行学习几乎永远无法保证不会严重出错(参见第16章)。

一种截然不同但相关的论点认为,从过度泛化的语法(或在其他领域中的过度泛化模型)中恢复是不可能的,因为这些模型可以与所观察到的经验数据完美一致——而且通常,我们只能观察到语言中“可能”发生的事情,而很少或根本无法获得关于“不可能”发生的事情的负面证据(Bowerman, 1988)。这一论点在推动某些先天论的语言习得方法方面颇具影响力(Crain & Lillo-Martin, 1999),他们考虑了如下例子:

a) Which man did Fred want to see? (弗雷德想见哪个男人?) b) Which man did Fred want to win? (弗雷德想让哪个男人赢?) c) Which man did Fred wanna see? (弗雷德想见哪个男人?[“wanna”为“want to”的缩略形式]) d) *Which man did Fred wanna win? (*弗雷德想让哪个男人赢?[不合法句子,标有星号])

其中,最后一个不合法的例子(标有星号)被认为因相当深层的语言学原因而被禁止(大致而言,在(b)句“Which man did Fred want _ to win”中存在一个“空缺”,这个空缺被“that man”隐式填充,如在“Which man did Fred want [that man] to win”中所示。而“want to”可以缩略为“wanna”,但“want _ to”则不能)。根据 Crain 和 Lillo-Martin (1999) 的观点,这提供了证据,表明有关空缺和缩略的相应语言学原则是先天的。

很自然地,人们会怀疑这种论证思路一定有问题——它似乎过于强大了。过度泛化的问题不仅存在于一些语言学家认为源于深层普遍原则的语言层面,也几乎存在于语言的方方面面:语言是规律性、次规律性和完全例外现象的混合体(Culicover, 1999),而这些例外往往高度特异且难以被合理地视为先天指定的。例如,正如我们在第16章所指出的,“give”(给)和“donate”(捐赠)具有非常相似的含义:

a) Ali gave the book to Eva. (阿里把书给了伊娃。) b) Ali donated the book to Eva. (阿里把书捐赠给了伊娃。) c) Could Ali give Eva the book? (阿里能把书给伊娃吗?) d) *Could Ali donate Eva the book? (*阿里能把书捐赠给伊娃吗?[不合法句子])

我们可以说“Ali gave the book to Eva”和“Ali donated the book to Eva”。虽然“Could you give me the book?”(你能把书给我吗?)完全可接受,但“*Could you donate me the book?”(*你能把书捐赠给我吗?)却明显怪异。但学习者如何知道这一点呢?如果从过度泛化中恢复本身是固有的难题,那么一旦学习者猜测句子(d)可能是可能的,就可能没有回头路了。事实上,如果情况真是如此,我们应该期望这样的例外会随着时间推移逐渐被消除——而这恰恰与世界各语言中所观察到的情况相反(Culicover, 1999)。

因此,如果在没有直接负面证据(即,明确指明某些事情不可能发生)的情况下,从过度泛化中恢复是困难的,那么这个问题应该普遍存在,而不仅仅是在语言学习中,而是在学习自然世界时都会出现。毕竟,儿童乃至科学家所能观察到的数据,仅限于符合自然法则的“可能”发生的现象,而无法直接获得关于“不可能”发生之事的数据。

但在实践中,儿童和科学家似乎确实能够成功地学习关于世界的知识,而不会陷入过度泛化的假设中。事实上,许多最基础的科学原理都涉及对“不可能”事物的规定:例如,热量不能自发地从较冷物体流向较热物体;能量既不能被创造也不能被毁灭;等等。






同样的逻辑也适用于消除语言中的过度泛化模型,并已通过贝叶斯视角(Dowman, 2000)和简洁性视角(Onnis, Roberts, & Chater, 2002)在简单的人工语言中得到验证。这一逻辑可以以多种方式加以拓展。在此,我们首先探讨如何将该方法推广,以构建一个足够宽泛的形式化可学习性框架,从而为语言习得提供有益的结果,以此作为对形式可学习性理论中常见的负面结论的一种反例。接着,我们再探讨如何将这一框架具体化,以处理语言特定方面的学习。

首先,让我们考察这一通用框架。柯尔莫哥洛夫复杂性理论提供了一个框架:即使只做极弱的假设,学习者也能仅凭对足够大的语言语料库的接触,最终收敛到对语言中哪些表达可接受、哪些不可接受的正确判断。所需假设异常温和:大致而言,无限语料库(我们可以不失一般性地将其编码为一串0和1)是由某个可计算的概率分布生成的——粗略地说,这意味着存在某个任意的计算机程序(例如可用 Church 编码),它接受一个随机源作为输入并生成该语料库。注意,我们无需假设句子是独立同分布(i.i.d.)抽取的,也无需假设句子是按照某种特定语法形式体系生成的。事实上,语言材料可以具有任意可计算的结构。但这一“可计算性”假设至关重要:它排除了绝大多数不可计算的语料库;而如果我们接受心智的标准计算观,那么人类无论如何也无法生成这类不可计算的语料库。

我们将这个定义在无限0-1序列上的“真实”分布记为 μ,它为每一个语料库(即任意有限长度的0-1序列,无论多长)赋予一个概率。

假设我们希望预测该序列中的下一个元素。此时,我们可以应用所罗门诺夫(Solomonoff, 1978)提出的一个非凡定理。该定理考虑了一个定义在这些二进制串上的通用先验 λ,其构造大致遵循本章早前描述的方法(但应用于无限长的0-1序列)。现在,假设我们以如下方式用 λ来预测 μ:



其中,K(μ)是可计算概率分布 μ的柯尔莫哥洛夫复杂性。这意味着,使用通用分布 λ来预测特定分布 μ时,从无穷远处累计的期望平方误差总和,由为 μ编写的最短 Church 程序(或我们选择的任何其他语言)的长度所决定。因此,λ会收敛于 μ;而它在收敛过程中所犯的错误取决于指定目标 μ的复杂度。因此,如果待学习的语言是由一个小型短语结构语法通过独立同分布(i.i.d.)采样生成的,那么 λ将能以极少的错误学会该语言(因为它在每一步都会做出临时预测);而要完整描述一种自然语言的全部复杂性——包括其统计模式、话语结构及其他要素——将需要大得多的复杂度,因此学习过程也会相应地变慢。尽管如此,只要目标分布 μ是可计算的,λ最终总会收敛到它,且错误被目标分布的复杂度所限定。

这似乎神秘甚至不可能:一个单一的分布 λ如何能同时逼近所有可计算分布 μ?毕竟,不同 μ的值可能彼此差异巨大。为了理解这是如何可能的,想象这样一个过程:给定任意长度为 n的二进制数据串,它能找到生成该序列的最短程序,并根据该程序预测第 n+1个元素(或者更优的做法是,按各程序长度适当加权后,聚合多个可能程序的预测)。一旦序列中开始出现某种模式,该过程便会迅速发现并遵循该模式;最终,它会锁定那个真正生成了数据的程序(或更精确地说,会逐渐赋予该程序越来越高的概率)。因此,一个单一的过程可以通过学习尽可能快速地模仿所有可能的可计算分布。

事实证明,所罗门诺夫这一非凡结果对自然语言背景下关于语法正确性的判断具有重要影响——这种判断能力一直被视为衡量语言知识的重要指标。特别地,让我们聚焦于从过度泛化中恢复的挑战——即学习者需要找到一种方法来修剪允许产生不可接受句子的语法,但学习者仅能接触到正面例子。为了框定这个问题,我们需要从关注二进制码转向将我们的数据视为一个词序列;学习者的挑战在于,在已遇到前 j−1个词的前提下,推测第 j个词可能出现的概率。如果学习者持有一个过度泛化的语言模型,那么它会给那些实际上不可能出现的延续(即,因与语法不一致而概率为零的延续)赋予正概率。我们将这种过度泛化错误的概率记作 Δj(x)。那么,第 j个词上过度泛化的期望值,经过前面 j−1个词字符串的概率加权后,可以写作 ⟨Δj⟩。

现在,通过运用所罗门诺夫的结果,可以证明:产生不合语法延续的期望值受实际生成数据的概率过程 μ的柯尔莫哥洛夫复杂性所限制:



因此,过度泛化不能为语言习得提供一个逻辑难题——只要语料库足够大,其中就包含足够的信息来排除这些过度泛化。

然而,这些积极的结果也有其局限性。其中之一就是不可计算性——正如前文所述,为给定数据集计算最短代码是不可能的,因此所罗门诺夫的结果及其扩展无法用于构建一个能够捕捉人类实际如何学习语言的算法。对此局限性的一种部分回应是 Vitányi 和 Chater (2017) 的一项成果,它提供了一个可计算的算法,该算法在无限长的独立同分布样本极限下,能精确恢复任何可计算的概率分布。因此,给定一个足够大的独立同分布样本(例如,来自随机噪声与可计算过程组合生成的随机短语结构语法或其他语法,如可用 Church 程序编码),就存在一个算法,能以概率1精确地猜测出该随机短语结构语法并永远坚持这一猜测。但 Vitányi 和 Chater (2017) 提出的算法,虽然可计算,却异常缓慢。

另一个局限性是,这些抽象结果使用了任意大量的数据——但真正重要的是,在儿童接收到的实际语言输入量下,是否能从过度泛化中恢复。Dowman (2000) 提供了一种早期的贝叶斯分析。Anne Hsu 及其同事提出了一系列基于简洁性和传统贝叶斯分析的方法,用于分析各种语言数据,并设计了实验范式(Hsu & Chater, 2010; Hsu et al., 2011; Hsu, Chater, & Vitányi, 2013; Hsu, Horng, Griffiths, & Chater, 2017)。Hsu 和 Chater (2010) 使用基于简洁性的框架,预测了那些在语言习得领域曾被视为难题的语言模式的可学习性:包括“want to”、“going to”、“what is”和“who is”的缩略形式;动词“donate”(前文已提及)、“whisper”、“shout”、“suggest”、“create”和“pour”的“与格交替”现象;以及动词“disappear”、“vanish”、“arrive”、“come”和“fall”的及物性问题。有趣的是,考虑到真实语言中遇到的数字实例,一些结构在几年内即可学会,而另一些则需要数十年的语言输入才能掌握。

后一类情况是否表明相关规律必须是先天的?不,至少不是在该术语的传统意义上。请注意,语言是通过文化演化塑造而成的,以便于学习和处理——因此,语言会体现先于语言存在的认知偏见(正如书写系统是为了便于创造和识别而适应人类运动和视觉系统的约束一样)。因此,语言中未被学习到的方面不必是语言特有的,也不必是通过生物演化为语言处理而专门适应的。语言与学习偏见之间的相互交织,可能是由语言围绕我们的认知系统演化而来,而非相反(例如,Chater & Christiansen, 2010; Christiansen & Chater, 2008, 2022; Zuidema, 2002)。

21.6 未来方向

概率与编码之间的双重关系对认知科学而言是引人入胜的——在这些视角之间来回切换,很可能将继续成为思想与洞见的宝贵源泉。在此,我们简要强调一些看似可处理且令人兴奋的未来研究课题。

例如,考虑物体(如窗户、人、数字、曲调、声音)及其属性(如颜色、高度、大小、音色)的本质。对世界的符号化表征通常始于一组物体和属性,并在此基础上构建一种逻辑语言,其中的公式用于表达它们之间的关系——而这类逻辑公式也常被假定为捕捉了自然语言表达式的意义。但物体及其属性究竟从何而来?为什么我们会将一只动物的各个部分归为一个单一实体,而不是将动物的腿与其所站立的地面,或其他任意组合归为一类(Quine, 1960)?对简洁编码的偏好为此提供了一条可能的解决路径:一方面,动物作为一个整体协同运动,而地面则不会;另一方面,许多属性(比如毛茸茸的质感、颜色等)自然地适用于整个动物;此外,将动物定义为物体,还能通过种内和种间的相似性(若它们源自共同的生物演化历史)带来巨大的简化。同样的思路或许也适用于更抽象的“物体”,比如曲调——将一组特定音符归为一个整体,可能特别有助于简洁地编码其音序与节奏(Bregman, 1994)。同样,属性本身可能构成了一套描述工具,使得世界中的规律性能够被高效、简短地编码。例如,若一个物体的属性在其经历变换时常常保持不变(比如一只鸟起飞时,其质量、对称性或颜色保持不变),那么这些属性就很可能具有实用性。更广泛地说,无论是在知觉还是科学中,一个有趣的问题是:我们对物体和属性的概念,在多大程度上源于对感觉数据进行简洁编码这一更广泛的挑战?

同样有趣的是,考虑编码视角如何帮助我们理解我们对感知世界的“先天性”(innateness)问题——正如本章在语言习得语境中所讨论的那样。内置一些有用的表征基元(representational primitives),很可能有助于在世界中发现简洁的模式;但这种对特定基元的偏好,并不一定构成一套关于世界如何运作的僵化理论——它或许更类似于在通用编程语言中预置一组有用函数(例如矩阵相乘、列表拼接、逻辑推理等),从而使某些操作更容易编码。然而,这种表征语言仍然能够捕捉任何可计算的过程——表征上的偏向只是让某些过程显得更“自然”而已(从概率角度看,这对应于一种先验,它偏好这些“自然”选项,但并不严格排除其他可能性)。

最后,编码方法面临一个关键挑战:如果仅压缩现有数据,而不关注这些数据是如何被收集和选择的,认知系统可能会系统性地产生偏差。借用哲学家吉尔伯特·哈曼(Gilbert Harman)的一个例子:当我们观察了足够多的白天鹅后,可能会暂时且合理地推断所有(或至少绝大多数)天鹅都是白色的——但事实上这是错误的,因为在澳大利亚黑天鹅相当常见(Harman, 1965)。然而,哈曼指出,如果我们观察到“迄今为止所见的所有天鹅都位于人类一英里范围内”,这一规律却绝不能作为“大多数或所有天鹅都位于人类一英里范围内”的可靠证据——因为这一规律有更合理的解释,而该解释几乎与天鹅本身无关,主要取决于人类视觉的局限性(当然,一旦我们使用远程摄像头或无人机,这一假设就会立即被证伪)。

从贝叶斯的视角来看,我们很自然地应将数据视为数据感知与收集机制(以及该机制被主动部署的方式)与世界结构共同作用的产物——而数据中许多可解释的模式,实际上源于我们的数据处理与收集方式(例如,视觉图像在不同视网膜位置和波长下的模糊程度;眼睛固定结构(如视网膜自身血管系统)投射出的“阴影”应当被剔除;当然,感官数据也应在自身眼球和头部运动反馈的背景下加以解释)。此外,主动学习(参见第7章)会导致我们在采样世界时产生偏差,而这种偏差应归因于我们自身的主动选择,而非世界本身的属性。因此,如果我们执着地寻找苹果,并因此将注意力集中在类似苹果的视觉输入上,我们就必须避免将感官数据解读为证实了“世界几乎到处都是苹果”,仅仅因为我们的感官输入充满了苹果的图像。然而,如何将对数据的解释分解为“世界属性”与“感知者属性”这两部分,远非显而易见。

21.7 结论

认知的贝叶斯观点可以用编码的框架重新表述:心智并非寻求对观测数据概率最高的模型,而是寻找对该数据最短的编码。这一观点将贝叶斯模型与知觉中的简洁性模型联系起来(后者常被视为贝叶斯模型的竞争者,而非互补视角),为基于转换的相似性观提供了基础,并构建了一个能得出语言可学习性正面结果的理论框架。事实上,在认知科学更广泛的领域中,同时从编码和概率的角度进行思考,可能是一种富有成效的视角。

原文链接:https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒?

一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒?

削桐作琴
2025-11-13 16:50:53
沃尔:浓眉可能已经不想留在独行侠,他想去家乡球队公牛

沃尔:浓眉可能已经不想留在独行侠,他想去家乡球队公牛

懂球帝
2025-11-14 08:26:39
给员工降薪50%却在外面捐款一个亿!对自己人好一点就这么难吗?

给员工降薪50%却在外面捐款一个亿!对自己人好一点就这么难吗?

翻开历史和现实
2025-10-17 09:54:36
男子去试驾开了40公里,销售小姐姐提醒也不听,网友:买车送媳妇

男子去试驾开了40公里,销售小姐姐提醒也不听,网友:买车送媳妇

唐小糖说情感
2025-11-10 10:42:26
湖南富婆发现路上“陌生女人”长得很像自己,查验DNA后发现,竟然是自己的双胞胎姐妹

湖南富婆发现路上“陌生女人”长得很像自己,查验DNA后发现,竟然是自己的双胞胎姐妹

励职派
2025-11-14 12:45:25
“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

博览历史
2025-09-10 20:25:07
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
已成闭环!西甲官方晒20队胜负关系图:谁都可能战胜谁

已成闭环!西甲官方晒20队胜负关系图:谁都可能战胜谁

懂球帝
2025-11-13 15:45:12
1991年中央派人请张学良回大陆,张:回大陆可以,但我有三个要求

1991年中央派人请张学良回大陆,张:回大陆可以,但我有三个要求

墨兰史书
2025-11-09 12:45:03
她是上海知名主持,母亲是骆文莲,师傅是曹可凡,如今却转行幕后

她是上海知名主持,母亲是骆文莲,师傅是曹可凡,如今却转行幕后

阿讯说天下
2025-11-13 12:35:10
拉菲尼亚评巴萨历史巴西球员TOP5:内马尔居首,小罗第二

拉菲尼亚评巴萨历史巴西球员TOP5:内马尔居首,小罗第二

懂球帝
2025-11-14 05:53:11
杭州保姆纵火案通灵实录:通灵人与被害人交流,得知朱小贞真实死因

杭州保姆纵火案通灵实录:通灵人与被害人交流,得知朱小贞真实死因

可儿故事汇
2024-08-29 12:50:53
辛柏青状态不对劲了!丧妻后首露正脸,眼神空洞憔悴到不敢认

辛柏青状态不对劲了!丧妻后首露正脸,眼神空洞憔悴到不敢认

老吴教育课堂
2025-11-14 13:31:28
越南合流日本

越南合流日本

求实处
2025-11-12 21:15:03
该反思了,诈骗头目都外国抓获没收,老百姓取款都要被询问,为啥

该反思了,诈骗头目都外国抓获没收,老百姓取款都要被询问,为啥

你食不食油饼
2025-11-12 11:48:56
造纸厂储罐发现3具女尸,法医:三人为亲姐妹,生前骨盆均被破坏

造纸厂储罐发现3具女尸,法医:三人为亲姐妹,生前骨盆均被破坏

罪案洞察者
2025-10-28 15:33:21
震惊!河南临颍县设定“萝卜坑”招聘一文职参谋,网友们沸腾了…

震惊!河南临颍县设定“萝卜坑”招聘一文职参谋,网友们沸腾了…

火山诗话
2025-11-13 14:47:42
最大的访问团,国王携家族三百多名成员访问中国,在中国生活至今

最大的访问团,国王携家族三百多名成员访问中国,在中国生活至今

今日养生之道
2025-11-14 11:44:01
朱雨玲首战胜世界第三,孙颖莎4-0封神,王楚钦急躁失利

朱雨玲首战胜世界第三,孙颖莎4-0封神,王楚钦急躁失利

残梦断忆
2025-11-14 13:38:42
女性“高潮”的秘密:别再假装了,教你的伴侣如何带你到达巅峰

女性“高潮”的秘密:别再假装了,教你的伴侣如何带你到达巅峰

精彩分享快乐
2025-11-12 00:05:03
2025-11-14 15:47:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
978文章数 16关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

中方密集就日首相言论发声 孙卫东连用五个"严重"表态

头条要闻

中方密集就日首相言论发声 孙卫东连用五个"严重"表态

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

家居
游戏
数码
公开课
军事航空

家居要闻

现代简逸 寻找生活的光

《完美音浪》官宣复活?发行权移交韩国蓝洞

数码要闻

EPOMAKER推出TH33综合小键盘,集成数字、方向、功能键区

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军多海域再现“航母真空”

无障碍浏览 进入关怀版