贝叶斯认知模型 逆向工程思维
Bayesian Models of CognitionReverse Engineering the Mind
https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html
![]()
![]()
![]()
9 利用非参数贝叶斯模型捕捉知识的增长
心理表征通常是简化的。当我们把世界中的对象表征为一组离散类别的成员时,我们实际上是在将一种简单的结构强加于我们经验的复杂性之上。假定一组对象可以用少量特征来描述,会使我们对这些对象的思考变得更简单。同样,假设两个变量之间的因果关系可以用一个平滑函数来表示,也简化了其背后的现实。心理学家通常会预先规定心理表征中结构的数量——比如类别的数量、特征的数量或原因的数量——并倾向于事先决定该表征能够捕捉多少复杂性。然而,理想情况下,我们希望对世界进行恰到好处的简化,只施加为做出准确预测和形成合理解释所必需的结构,不多不少。在学习类别时,我们不想做出“世界上存在固定数量的事物种类”这种不切实际的假设;在识别特征时,我们不想假定可用的特征数量是有限的;在学习因果关系时,我们也不想假设所有关系都是线性的。世界具有无限的复杂性,而当已有数据支持时,我们希望有能力去模拟这种复杂性。
然而,这种容纳潜在无限复杂性的需求,与概率推理的实际挑战之间存在张力。人类大脑是有限的,因此,如果它们能够形成任意复杂度的表征,就必须以一种仍可计算、可处理的方式来实现。同样,在构建人类认知的概率模型时,我们也需要能够在计算机上对这些模型进行计算。因此,我们需要定义这样一类概率模型:它们允许我们使用有限的表征和计算资源,来处理无限的假设空间。
学习者在复杂性与可处理性之间取得平衡的一种自然方式,是从简单表征开始,并在遇到新观察结果、且这些观察结果要求更高复杂度时,逐步增加复杂性。这种思路体现在让·皮亚杰(Jean Piaget, 1954)对认知发展的描述中,即同化(assimilation)与顺应(accommodation)的过程。在皮亚杰看来,当儿童面对新信息时,有两种选择:要么将该信息同化到其当前对世界的理解中,要么调整其理解以顺应新信息。尽管儿童最初拥有一个简单的世界模型,但这些顺应过程会逐步累积复杂性,从而深化并丰富其心理表征。一些研究者试图在模型中捕捉这一过程,例如级联相关神经网络(cascade correlation neural networks;Shultz, Mareschal & Schmidt, 1994),这类模型也能以类似方式累积复杂性。
这种直观地解决表征与计算挑战的方法,在非参数贝叶斯统计(nonparametric Bayesian statistics)所发展的一套工具中得到了精确化(例如,Müller & Quintana, 2004;Hjort, Holmes, Müller & Walker, 2010)。这些工具利用第5章和第6章所描述的近似推理方法,来处理能够容纳无限复杂性的模型。这种方法之所以被称为“非参数”,是因为它提供了一种超越统计学中常见的简单参数模型族的方式来工作。更正式地说,它适用于模型复杂度随数据增长的情形——例如,需要估计的有效参数数量会随着观测数据的增多而增加。这与参数模型形成对比,后者具有固定数量的参数;它更类似于非参数频率学派方法,例如第5章简要提到的核密度估计(kernel density estimation)。
举一个具体例子:设想一位探险家来到一块新大陆。她熟悉自己大陆上的动物,并已将它们归类为若干物种。当她拨开一根树枝,遇到第一只动物时,她面临一个问题:这是一种全新的动物,值得设立一个新物种吗?还是说它的特性可以用她之前已知的物种来解释?尽管她在任何时刻所持有的表征都是有限的——她不可能假设出比她实际见过的动物个体更多的物种——但世界上可能存在的物种数量却没有上限。这正是本章所讨论模型背后的核心假设。
原则上,非参数贝叶斯模型具有无限的结构——无限多的类别、无限多的特征、函数中无限的自由度——但面对任何有限的观测数据集,它们实际上只会实例化有限的结构。它们遵循第3章介绍的贝叶斯奥卡姆剃刀原则,只引入解释数据所必需的复杂性,并仅在必要时扩展结构。接下来,我们将探讨这种方法如何应用于三种情境:分类(categorization)、特征学习(feature learning)和函数学习(function learning)。
9.1 用于分类的无限模型
在第5章中,我们看到心理分类模型可以被赋予概率解释。具体而言,这些模型可被视为对应于估计与某一类别相关联的对象的概率分布的方案,而混合模型可用于此目的。在本节中,我们使用这种对分类问题的表述,来介绍最常用的非参数贝叶斯模型之一——无限混合模型。我们首先以更正式的方式处理有限混合模型,建立随后用于将其推广至无限混合模型的数学概念。然后,我们将花更多时间讨论一个关键思想——中国餐馆过程(CRP)——并探讨如何仅用有限手段在一个无限模型中执行推断。
假设我们有 n 个对象,其中第 i 个对象具有 d 个可观测属性,由行向量 xᵢ 表示。在混合模型中,每个对象被假定属于单个聚类 zᵢ,且属性 xᵢ 是从由该聚类决定的分布中生成的。使用矩阵 X = [x₁ᵀ x₂ᵀ … xₙᵀ]ᵀ 来表示所有 n 个对象的属性,使用向量 z = [z₁ z₂ … zₙ]ᵀ 来表示它们的聚类分配,该模型由一个关于分配向量的先验 P(z) 和一个在这些分配条件下关于属性矩阵的分布 p(X|z) 所指定。这两个分布可以分开处理:P(z) 指定了聚类的数量及其相对概率,而 p(X|z) 决定了这些聚类如何与对象的属性相关联。我们将重点关注关于分配向量的先验 P(z),并说明如何在不为聚类数量设定上限的情况下定义这样的先验。
9.1.1 有限混合模型
混合模型假设一个对象被分配到某个聚类,与其他所有对象的分配相互独立。假设有 k 个聚类,θ 是这些聚类上的离散分布,θⱼ 是在该分布下聚类 j 的概率。在此假设下,所有 n 个对象的属性 X 的概率可写作
![]()
![]()
方程(9.11)将聚类分配 z作为一个整体定义了一个概率分布。此时,各个单独的聚类分配不再相互独立,而是可交换的(exchangeable;Box & Tiao, 1992),即当对象的索引被任意置换时,分配向量的概率保持不变。在聚类分配的概率分布中,可交换性是一个理想性质,因为用于标记对象的索引通常是任意的。然而,由方程(9.11)所定义的分配向量分布假设了对象聚类数量存在一个上限,因为它只允许将对象分配到最多 k个聚类中。
9.1.2 无限混合模型
直观地说,定义一个无限混合模型意味着我们希望用无限多个聚类来表达 X的概率,即将方程(9.1)修改为:
![]()
其中 θ 是一个无限维的多项分布。为了重复此处给出的论证,我们需要在无限维多项分布上定义一个 p(θ),并通过积分对 θ 计算 z 的概率。采用这一策略提供了一种推导无限混合模型的替代方法,从而得到一种被称为狄利克雷过程混合模型(Dirichlet process mixture model)的方法(Antoniak, 1974; Ferguson, 1983)。相反,我们将直接处理方程(9.11)中给出的分配向量的分布,并考虑当聚类数量趋于无穷大时的极限情况(Green & Richardson, 2001; Neal, 1998)。
![]()
具体而言,我们将定义一个关于对象划分(partitions)的分布。在我们的设定中,一个划分是指将 n 个对象的集合划分为若干子集,其中每个对象属于且仅属于一个子集,且子集的顺序无关紧要。导致相同对象划分的两个分配向量对应于同一个划分。例如,如果我们有三个对象,聚类分配 {z₁, z₂, z₃} = {1, 1, 2} 将对应于与 {2, 2, 1} 相同的划分,因为这两种情况之间唯一的区别在于聚类的标签。因此,一个划分定义了一个分配向量的等价类 [z],若两个分配向量对应于同一划分,则它们属于同一等价类。由于这些聚类分配的等价类与由可识别性所诱导的等价类相同——即对于所有对应于同一划分的分配向量 z,p(X|z) 是相同的——因此我们可以在划分层面而非分配向量层面进行统计推断。
假设我们将 n 个对象划分为 k₊ 个子集,并且我们拥有 k ≥ k₊ 个可用于标记这些子集的聚类标签。那么,存在 (k−k+)!k!个分配向量 z,它们属于由该划分定义的等价类 [z]。我们可以通过对属于每个划分所定义的等价类的所有聚类分配求和,来定义一个关于划分的概率分布。在方程(9.13)所指定的分布下,这些聚类分配中的每一个的概率都是相等的,因此我们得到:
![]()
![]()
这些极限概率定义了一个在划分上的有效分布,从而也定义了聚类分配等价类上的分布,为无限混合模型提供了一个关于聚类分配的先验。在此分布下,对象是可交换的,与有限情况相同:一个划分的概率不受对象顺序的影响,因为它仅取决于计数 。
如上所述,方程(9.17)所指定的划分分布可以通过多种方式推导得出——通过取极限(Green & Richardson, 2001; Neal, 1998)、从狄利克雷过程(Blackwell & MacQueen, 1973)或从其他等价的随机过程(Ishwaran & James, 2001; Sethuraman, 1994)推导而来。接下来,我们将简要讨论一种产生相同划分分布的简单过程:中国餐馆过程。
9.1.3 中国餐馆过程
![]()
由中国餐馆过程(CRP)所诱导的划分分布与方程(9.17)中给出的分布相同。如果我们对这 n个对象假设一个顺序,那么就可以按照 CRP 所规定的方法依次将它们分配到聚类中,其中对象扮演顾客的角色,聚类扮演桌子的角色。第 i个对象被分配到第 j个聚类的概率为:
![]()
![]()
![]()
在聚类分配分布按方程(9.17)定义的无限混合模型中,我们可以利用可交换性来求得完整条件分布。由于该分布是可交换的,因此 P(z)不受对象顺序的影响。于是,我们可以选择一种排序方式,使得第 i个对象是最后一个被分配到聚类的对象。这直接源于中国餐馆过程(CRP)的定义;也就是说:
![]()
![]()
当与某种选择的 p(X∣z)结合时,方程(9.20)和(9.21)分别足以定义用于有限混合模型和无限混合模型的吉布斯采样器。Neal (1998) 和 Rasmussen (2000) 提供了在无限混合模型中使用吉布斯采样的示例。类似的 MCMC 算法见于 Bush and MacEachern (1996)、West, Muller, and Escobar (1994)、Escobar and West (1995),以及 Ishwaran and James (2001)。超越吉布斯采样器所允许的聚类分配局部变化的算法由 Jain and Neal (2004) 及 Dahl (2003) 提出。
9.1.5 建模人类类别学习
无限混合模型提供了一种解决我们在最初考虑混合模型作为理解人类类别学习工具时所遇到的问题的方法:它们指明了学习者如何为给定的一组对象选择合适的表征形式。如果对象可以很好地被描述为属于单个聚类,则该模型可能形成一个以单个聚类为主导的表征——即原型模型。如果对象过于分散以至于彼此毫无共同点,则聚类数量最终可能接近对象总数——即样例模型。通常情况下,无限混合模型会在这两个极端之间产生某种结果。因此,探索这类非参数贝叶斯模型似乎可以为人类类别学习的灵活性提供一些洞见。
有趣的是,在无限混合模型在统计学和机器学习领域广泛流行之前,它们就已被提出作为一种解释人类类别学习的理论。Anderson (1990) 提出了一个分类模型,其中人们将对象分配到聚类,并且当对象与所有现有聚类匹配不佳时,有可能增加聚类的数量。该理论的核心是一个无限混合模型,正如 Neal (1998) 所指出的。认识到这一关系后,Sanborn, Griffiths, 和 Navarro (2006, 2010a) 表明,后续在统计学和机器学习中发展出的更复杂的推断算法可以改进该模型所做出的预测。
Anderson 的分类模型,也被称为理性分类模型,已被用于理解人们在成长过程中所习得的类别表征如何发生变化。图 9.2a 展示了 Shepard, Hovland, 和 Jenkins (1961) 引入的一组经典类别结构。这些类别结构基于八个刺激,这些刺激在三个二元维度上有所不同(例如,形状、颜色和大小)。刺激被分为两类,每类包含四个刺激。这导致了六种不同的类别结构,标记为类型 I 到类型 VI。Shepard, Hovland, 和 Jenkins (1961) 发现,这些结构在学习难度上有所不同,其中类型 I 最容易学习,类型 II 较难,类型 III、IV 和 V 更难,而类型 VI 最难。这些结构也可以用混合模型以不同方式表示:类型 IV 问题可以用每个类别一个聚类准确表示,而类型 II 问题则需要每个类别两个聚类才能准确表示。
虽然 Shepard 等人 (1961) 发现类型 II 问题比类型 IV 问题更容易学习,但这种效应是在通常的年轻成年实验人群中发现的。当面对此任务时,年长成年人表现出相反的模式:类型 IV 比类型 II 更容易(参见图 9.2b;Badham, Sanborn, & Maylor, 2017; Rabi & Minda, 2016)。Anderson 的分类模型假设年长成年人的 α 参数显著低于年轻人,因此他们产生的聚类更少(参见图 9.2c),从而再现了这一模式。进一步的支持来自 Davis, Love, 和 Maddox (2012),他们发现 Anderson 的模型在其他分类问题上也能得出类似结果。有趣的是,α 的差异可能与年长成年人较低的认知能力有关:Dasgupta 和 Griffiths (2022) 表明,较高的 α 值与表示概率分布所需更高的认知成本一致。或许年长成年人比年轻人拥有更少的表征资源,这解释了为什么他们在分类任务中似乎使用更少的聚类。
![]()
无限混合模型可以通过多种方式进行扩展,以捕捉分类的不同方面。例如,Anderson 的分类模型假设类别标签本身是对象的另一个特征。因此,聚类在不同类别间是共享的,每个类别的聚类分布是通过以对应于该类别标签的特征为条件而获得的。另一种方法是明确地将每个类别与一个独立的聚类分布相关联,但允许其中一些聚类被共享。这一假设可通过分层狄利克雷过程(hierarchical Dirichlet process)来捕捉(Griffiths, Canini, Sanborn, & Navarro, 2007)。
无限混合模型的另一种推广允许不同的聚类方案可能适用于解释所观察到特征的不同子集的分布。例如,一件家具可能具有描述其形状的特征——如带有腿、大的平面表面——或描述其建造材料的特征——如枫木。第一组特征支持基于功能的聚类——桌子、椅子等——而第二组特征则支持基于材料的聚类。这种区分可以在一个生成模型中捕捉:该模型首先对特征本身进行聚类,然后针对每个特征聚类对对象进行分组(即 CrossCat 模型,第1章中已讨论;Shafto, Kemp, Mansinghka, Gordon, & Tenenbaum, 2006; Mansinghka et al., 2016)。
无限混合模型的另一种推广有助于解释可分离维度——即那些从刺激中容易识别的维度——对类别表征所产生的强烈影响。与可分离维度对齐的类别往往更容易学习,而那些不对齐的类别则更难学习。这可以被解释为一种关于混合模型中聚类形状的先验:聚类预期与可分离维度对齐,而与这种先验相匹配的类别结构更容易学习(例如,Shepard, 1987; Austerweil, Sanborn, & Griffiths, 2019)。但是,这种关于聚类对齐方式的先验本身又如何被习得呢?这可以通过另一种无限混合模型实现:如果每个聚类的形状本身的先验本身就是一个无限混合模型,那么与可分离维度相对应的不同类型的聚类便可以在一生的经验中被习得。因此,一个双层无限混合模型可以解释广泛的维度偏差现象(Sanborn, Heller, Austerweil, & Chater, 2021)。
最后,无限混合模型还可以扩展到对象不仅由其自身所拥有的特征描述,还由其与其他对象之间的关系所描述的情境中。例如,在试图理解一个新的社交环境时,你可能会关注哪些人对似乎彼此是朋友。基于这些关系,你可以尝试推断一个潜在的聚类结构,其中任意两个人是朋友的概率仅取决于他们所属的聚类。更正式地说,人 a 和 b 分别属于聚类 ,他们成为朋友的概率由 给出。在统计学中,这类模型被称为随机块模型(stochastic blockmodel),它是混合模型的关系等价形式。使用 CRP 定义聚类成员的先验分布,会产生无限关系模型(infinite relational model),该模型已被用于解释人类如何学习关系理论的某些方面(Kemp, Tenenbaum, Griffiths, Yamada, & Ueda, 2006)。
9.1.6 超越分类
中国餐馆过程(CRP)及相关分布的应用远不止于分类任务。在任何需要对具有离散但潜在无限取值的隐变量进行推断的情境中,CRP 都可作为先验分布使用。
CRP 已被成功应用于推断可能解释观测事件的潜在原因(latent causes)。例如,假设你去一家咖啡馆点了一杯饮料,并且很喜欢它。一周后,你再次光顾同一家咖啡馆,点了同样的饮料,但这次却非常糟糕。你可以通过推断咖啡馆发生了某种变化来理解这一经历——比如你两次光顾时使用的咖啡豆不同。这样做,你实际上是在假设一种潜在原因来解释这一现象。随着你积累更多经验,你可能会推断出更多的潜在原因,例如假设这家咖啡馆使用几种不同风味的咖啡豆。
这种“潜在原因”视角已被用于解释动物条件反射实验中的某些结果模式:突然撤除奖励在削弱行为方面的效果,不如逐渐降低奖励频率那么有效(Gershman, Blei, & Niv, 2010)。直观来看,突然的变化暗示应推断出一个新的潜在原因;动物由此学会:当该潜在原因存在时,其行为不再带来奖励。而行为与奖励之间的原始关联因此得以保留,并在动物认为环境已恢复到原始潜在原因状态时再次表现出来。相比之下,逐渐减少奖励频率并不会导致潜在原因推断的改变,因此原始关联会被消除。
另一种出现未知数量离散隐变量的情境是语言。音素、词汇和句法范畴都是需要从环境中推断出的离散集合。在这些情况下,CRP 可用于定义先验分布。例如,Goldwater、Griffiths 和 Johnson(2006a)提出了一个词汇切分的概率模型——解释儿童如何从连续的音素流中识别出离散的词语——其中就使用 CRP 来定义词汇的先验分布。
![]()
![]()
其中 a和 b是该过程的参数。由此产生的每张桌子顾客数量的分布是一个幂律分布,其指数为 1+a。因此,该模型能更好地刻画语言中出现的分布。基于 Pitman-Yor 过程的模型已被证明与用于估计词概率分布的复杂平滑方法(smoothing schemes)有着深刻的联系(Goldwater, Griffiths, & Johnson, 2006b;Teh, 2006)。事实上,Pitman-Yor 过程所诱导的分布是关于可交换划分(exchangeable partitions)最一般的形式(Pitman, 2002)。
非参数贝叶斯统计的思想在语言中的应用并不仅限于词汇层面。自然语言处理中的一个标准问题是估计与概率语法(probabilistic grammars)规则相关联的概率分布(见第16章)。在这些语法中,一条规则指定了某个符号可被重写的若干种离散方式,每种方式都对应一个概率。使用基于 CRP 的分布来表示这些概率,会产生一种“缓存”(caching)先前规则应用结果的效果:在每次应用该规则时,你可以选择使用之前已生成的结果,也可以创建一个新结果(Johnson, Häubl, & Keinan, 2007a)。这一特性使得模型能够捕捉语言中某些丰富的依赖关系,而这些依赖关系在简单语法中通常是缺失的。类似的方法也被用作概率编程语言中的一种随机记忆(stochastic memorization)机制(Goodman 等, 2008a),我们将在第18章中更详细地讨论这一点。
9.2 用于特征表征的无限模型
第9.1节展示了如何利用非参数贝叶斯统计的方法来定义类别学习模型,而无需假设世界上存在一组固定的事物种类。同样的策略也可应用于特征学习(feature learning)。在特征学习中,目标是识别出能够解释一组对象可观测属性的潜在特征。在最简单的情形下——也是我们此处关注的情形——特征对对象的分配是二值的,即每个潜在变量指示一个对象是否具有某个特征。其挑战在于同时确定对象拥有哪些特征以及应该使用多少个特征来表征这组对象;这与类别学习中的挑战类似——在类别学习中,我们需要同时推断类别分配及其数量。
特征学习可被视为与类别学习类似的问题。如果我们设想每个对象都关联一个二值特征向量,那么类别学习就对应于一种约束情形:即每个向量中仅允许一个非零元素(即每个对象仅属于一个类别)。而特征学习则是更一般的情形,其中每个对象可以拥有多个非零元素(即可以同时具备多个特征)。换句话说,在类别学习中,每个数据点仅关联一个离散单元(即一个类别),而在特征学习中,每个数据点可以关联零个或多个离散单元(即多个特征)。
在本节中,我们将介绍一种与 CRP(中国餐馆过程)类似的分布,但它适用于上述更一般的情形。该分布随后可作为先验,用于特征学习模型,或用于其他需要推断一个二值向量但又不希望预先限制其长度的情形。与上一节类似,我们将通过取一个有限分布的极限来推导这一无限二值先验。
9.2.1 一个有限特征模型
![]()
![]()
9.2.2 取无限极限
![]()
![]()
![]()
同样,该分布是可交换的:既不受对象顺序的影响,也不受相同列的数量或列和的影响。
9.2.3 印度自助餐过程
![]()
9.2.4 建模人类的特征学习
印度自助餐过程(IBP)提供了一种简单的方式来定义概率模型,这些模型能够识别出应用于表征一组对象所需的特征。这或许可以解释人们如何形成特征表征,以及这些表征如何依赖于上下文(特别是个体所熟悉的其他对象)。Austerweil 和 Griffiths(2011)探讨了这类解释的预测结果,表明人们似乎会根据对象集合的分布特性形成不同的对象表征。
图 9.4 展示了如何从同一组六个部件中生成两组对象。每个对象由其中三个部件组成,从而产生 20 种可能的部件组合。其中一组称为“相关集”(correlated set),重复使用相同的 4 种三部件组合,每种重复四次;另一组称为“独立集”(independent set),包含 20 种组合中的 16 种独特组合。当向基于 IBP 的概率模型展示相关集时,该模型会将每种重复出现的组合视为一个单独的特征;而当展示独立集时,模型则会识别出实际用于构建对象的那六个原始部件作为特征。
![]()
人类在面对这两组对象时似乎也形成了不同的表征:当被问及那四种未观察到的对象组合是否可能与其他对象一起出现时,看过相关集的参与者远比看过独立集的参与者更不愿意将结论推广到这些新对象上。
与 CRP 及其对应的狄利克雷过程类似,IBP 及其对应的连续随机过程——贝塔过程(beta process;Hjort, 1990)——也已衍生出许多扩展和推广形式。其中一种方法是进一步丰富 IBP 的饮食隐喻。例如,通过让顾客为每道菜添加一种“香料”(spice),从而改变菜肴的味道,研究者构建了具有变换不变性(transformation-invariant)的特征学习模型(Austerweil & Griffiths, 2013)。近期的研究还探索了将 IBP 与神经网络相结合的方法,定义一种先验分布,以帮助神经网络在时间进程中为相关任务学习出不同的表征(Kessler, Nguyen, Zohren & Roberts, 2021)。
9.3 用于函数学习的无限模型
到目前为止,我们关注的是需要推断的潜在结构为离散的情形——无论是类别还是特征集合。然而,在其他情境中,同样存在既要容纳无限复杂性又要保持简洁性的类似问题。其中一个最突出的例子是函数学习(function learning)——即学习两个或多个连续变量之间的关系。人们常常在不知不觉中解决这一问题,例如在驾驶一辆租来的汽车时,学习踩油门的力度与车辆加速度之间的关系。
非参数贝叶斯方法也为解决这一问题提供了途径,使得我们能够在保持计算可处理性的同时学习复杂的函数,并且天然倾向于更简单的解。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
9.3.3 取极限
贝叶斯线性回归和高斯过程似乎提供了两种截然不同的回归问题解决方法。在贝叶斯线性回归中,确定了一个明确的函数假设空间,定义了该空间上的先验,并通过计算函数上的后验分布然后对该分布进行平均来形成预测。相比之下,高斯过程只是利用不同x值之间的相似性,通过核函数来预测y值之间的相关性。因此,了解到这两种方法实际上是等价的,可能会让人感到惊讶:继续本章的主题,我们可以将标准的高斯过程模型推导为贝叶斯线性回归的无限极限。
![]()
这些等价性结果建立了贝叶斯线性回归和高斯过程之间的重要对偶性:对于每个函数的先验,都有一个定义x值之间相似性的核,对于每个正定核,都有一个产生相同预测的相应函数先验。贝叶斯线性回归和高斯过程预测因此只是同一类回归问题解决方案的两种视角。
9.3.4 模拟人类函数学习
贝叶斯线性回归和高斯过程之间的对偶性为人类函数学习提供了一种新的视角。以前,关于函数学习的理论集中在不同心理机制的作用上。一类理论(例如,Carroll, 1963; Brehmer, 1974; Koh & Meyer, 1991)表明人们正在从一个给定的集合中学习一个明确的函数,例如k次多项式。这种方法赋予人类学习者丰富的表示,但传统上对这些表示如何获得的问题处理有限。第二种方法(例如,DeLosh, Busemeyer, & McDaniel, 1997; Busemeyer, Byun, DeLosh, & McDaniel, 1997)强调人们可能只是在形成变量相似值之间的关联。这种方法对潜在的学习机制有明确的解释,但在解释人们如何超越他们的经验进行泛化时面临挑战。最近,这两种方法的混合体被提出(例如,McDaniel & Busemeyer, 2005; Kalish, Lewandowsky, & Kruschke, 2004),其中明确函数被表示,但采用关联学习。
贝叶斯线性回归类似于明确的规则学习,估计函数的参数,而基于预测变量之间相似性(由核定义)进行预测的想法更符合关联解释。事实上,在计算层面上,这两种回归的视角是等价的,这表明这些竞争的机制解释可能并不像它们曾经看起来的那样相距甚远。就像将类别学习视为密度估计有助于我们理解原型和示例模型的共同统计基础一样,将函数学习视为回归揭示了规则学习和关联学习背后的共同假设。
高斯过程模型也为人类在函数学习任务中的表现提供了很好的解释。Griffiths等人(2008b)将具有混合核(线性、二次和径向基)的高斯过程模型与人类表现进行了比较(另见Lucas, Griffiths, Williams, & Kalish, 2015)。图9.5显示了在训练线性、指数和二次函数时人类预测的平均值(来自DeLosh等人,1997),以及高斯过程模型的预测。垂直线左右两侧的区域代表外推区域,即人们或模型未接受训练的输入值。在线性函数上,人们和模型几乎进行了最优的外推,指数和二次函数的外推也相当准确。然而,在指数和二次函数的外推中存在对线性斜率的偏差,二次和指数函数的极端值被高估。
![]()
后续使用高斯过程来模拟人类函数学习的工作更深入地探讨了捕捉人类对函数期望所需的核函数类型。Wilson, Dann, Lucas, 和 Xing(2015)直接从人类函数学习数据中估计核,并发现人类倾向于偏好比典型机器学习方法中假设的更平滑的函数。Schulz, Tenenbaum, Duvenaud, Speekenbrink, 和 Gershman(2017)探索了如何组合不同的核来捕捉函数的组合结构,使用简单的语法定义核的分布,允许函数的不同属性(如线性或周期性)被组合。
9.4 未来方向
虽然非参数贝叶斯方法已被用于研究认知科学中的各种主题,但这些应用大多使用了本章介绍的小型工具家族——CRP、IBP和高斯过程。非参数贝叶斯统计的文献涵盖了更广泛的主题,并在不断扩展,为认知科学创造了其他机会。例如,用于定义CRP和IBP的方法可以用于定义无限排名序列(Caron & Teh, 2012)和图(Caron, 2012)上的概率分布。
虽然我们在本章(以及更广泛的书中)的重点一直是蒙特卡洛方法,但变分推断也可以用于非参数贝叶斯模型中的推断(例如,Blei & Jordan, 2006)。虽然蒙特卡洛方法强调CRP和IBP的离散结构,但变分方法将推断转化为连续优化问题。因此,这些方法在潜在的认知过程方面可能有不同的解释,并有可能与基于人工神经网络的方法建立更强的联系。
总的来说,将非参数贝叶斯模型与深度学习相结合,可能为思考人类认知中固有的结构与灵活性之间的权衡提供了一种新方式。例如,已知人工神经网络会遭受灾难性遗忘,即在一个任务上的训练会取代之前执行任务时获得的知识(McCloskey & Cohen, 1989)。CRP提供的离散结构可能是一种防止这种情况的方法:如果系统能够识别出任务与它之前所做的不同,它可以执行该任务而不修改先前任务的表示(Jerfel, Grant, Griffiths, & Heller, 2019)。同样,IBP已被用于定义支持神经网络持续学习的有结构的先验(Kessler, Nguyen, Zohren, & Roberts, 2021)。将识别环境中离散区别的能力与连续学习相结合,表明了一条通向适当平衡结构和灵活性的系统的道路。
9.5 结论
人类心智必须应对一个包含未知数量的聚类、特征和原因,以及变量之间未知形式关系的复杂世界。非参数贝叶斯模型提供了一种为这样一个世界定义有意义先验分布的方法,使我们能够模拟人们如何将信息整合到现有的表示中,并修改这些表示以适应不一致的结果。这种能力可以作为更复杂贝叶斯模型的一个组成部分,本章讨论的先验分布在任何对潜在变量的维度或复杂性存在不确定性的情况下都是有用的。
我们以一个探险者遇到一种新型动物的例子开启了本章——这种情况很容易被我们描述的模型所解决。但是,能够假设某物是我们未曾见过的种类,并不是探险者独有的领域。这也是那些推动知识边界的科学家以及每一个人类儿童面临的问题。皮亚杰强调同化和顺应是认知发展的基本力量,因为我们早期的许多经验需要以不同的方式扩展我们的知识。非参数贝叶斯模型为我们提供了一种理解这些力量的方法——一个精确的解释,告诉我们何时应该同化,何时应该顺应。通过使用这些模型,我们可以捕捉到在无限复杂的世界中成长的意义的一部分。
![]()
10 估计主观概率分布
从前面几章应该已经清楚,认知的贝叶斯模型的预测结果在很大程度上依赖于所选择的具体概率分布——人们如何学习,会反映不同假设的先验概率;人们如何对物体进行分类,则由代表不同类别的分布所决定。因此,估计这些分布是构建贝叶斯模型的一个重要环节。
有时,我们可以直接从现实世界中测量这些分布。例如,在Griffiths和Tenenbaum(2006)关于“预测未来”的实验中(第三章曾讨论过),各种日常数量的先验分布可以从在线数据集中估计出来。同样,第五章重点介绍的Feldman、Griffiths和Morgan(2009)对“知觉磁石效应”(perceptual magnet effect)的解释,需要使用混合模型来表示语音范畴,而该混合模型各成分的参数线索则可从人类语音信号中获取。采用从现实世界中导出的分布具有吸引力,因为它最大限度地减少了我们必须对主观概率(即我们内在的信念程度)与客观、可测量的世界概率之间可能存在差异所作的假设。出于这一原因,Anderson(1990)在其“理性分析”(rational analysis)的定义中推荐了这种方法,并展示了如何利用它来解释诸如遗忘的幂律曲线等现象——即通过模仿我们所处环境的统计结构来实现。
在其他情况下,我们感兴趣的是考察假设不同分布所带来的后果,并将由此产生的模型与人类行为进行比较。Griffiths和Tenenbaum(2006)就采用了这种方法,推断人们在诸如电话购票排队等待这类现象中的先验分布形式——而这类现象很难获得客观数据。通过人们的判断(在此例中,人们等待时间越长,他们预期还需等待的时间也越长),研究者推断出人们假设此类等待时间服从幂律分布。在这种方法下,我们可以先定义一个模型,然后寻找能使该模型与人类行为拟合得最好的分布。这是一种有效的策略,但它面临两类风险:一是欠拟合(underfitting)人类行为,因为参数化分布族的种类相对有限,而最能刻画人类行为的真实分布可能并不属于这些已知族之一;二是过拟合(overfitting)人类行为,最终得到的分布虽然能很好地拟合当前建模的具体任务,却无法推广到其他密切相关的新任务上。
在本章中,我们考虑一种不同的方法来估计主观概率分布,其重点在于设计新颖的实验方法,直接测量这些分布。核心思想是设计能够让我们从主观概率分布中进行抽样的实验。通过这种方式,我们可以从所获得的样本中估计出该分布。我们首先概述统计学中用于引出主观概率分布的标准方法,然后转向一组基于第六章所介绍的抽样算法的实验方法。
10.1 概率的引出(Elicitation of Probabilities)
统计学家、社会科学家和计算机科学家经常需要以概率分布的形式捕捉人们对某个连续量的信念。为解决这一问题,他们开发了多种引出方法,这些方法结合了向人们提出定量问题,并尽可能根据其回答推断出对应的概率分布(相关综述见Garthwaite, Kadane & O’Hagan, 2005;O’Hagan等, 2006)。
一种标准的引出方法是要求人们提供某个量的分位数(quantiles),或为给定的分位数提供对应的量值。例如,若目标是估计某人对电影票房收入的概率分布,可以请他们说出处于最低5%、最低10%等分位的票房金额。或者,也可以请人们对不同的票房金额分配百分位排名,表明他们认为这些金额在整个分布中所处的位置。任一方式都能提供一组数值,可用于近似累积分布函数(CDF),进而从中恢复出概率密度函数(PDF)的估计。
这些传统的引出方法在估计单一数量上的分布时可能是有效的,并且在所得分布的形式上并无限制(尽管某些数据分析方案——例如寻找最符合人们估计的高斯分布——可能会引入额外约束)。然而,作为用于认知贝叶斯模型中概率分布估计的一般性方法,它们存在两个弱点。
第一,传统引出方法仅适用于简单、低维的量。例如,电影票房收入都落在单一维度上——即美元金额——其对应的分布可用一元概率密度函数描述。即使推广到二维情形,在评估合适的分位数和量值方面也会带来挑战,尽管这些挑战尚可应对。但对于更高维、更复杂的空间(例如人们对范畴、函数或因果关系的先验分布),这些空间往往缺乏自然的序结构或表征格式,传统方法便无能为力了。
第二,这些方法假设人们能够准确地通达自己的主观概率。对于一维量,这一假设或许尚可接受,尽管已有大量证据表明,要求人们做出显式的概率判断可能存在严重问题(例如Tversky & Kahneman, 1974)——这也是本书所呈现的实验通常尽量避免直接询问人们概率值的原因之一。然而,人们可能无法同样准确地通达贝叶斯模型中用于刻画先验概率或范畴表征的那些分布。例如,要测量人们对“狗”这一范畴中各类动物相貌(physiognomy)的分布,或他们赋予确定性因果关系的先验概率,可能极具挑战性。
因此,本章后续介绍的方法旨在有效估计人们对任意复杂对象的主观概率分布,所采用的是自然化的判断任务,不要求人们直接陈述主观概率。这些方法也不对底层分布的形式作任何假设。为实现这一点,它们借用了计算机科学家和统计学家为从复杂概率分布中抽样而开发的技术。然而,这些方法的灵感并非来自上述两个学科——而是来自语言学。
10.2 迭代学习(Iterated Learning)
当一个孩子学习语言时,她是从其他说话者那里学习的,而这些说话者本身又是从更早的说话者那里习得语言的。语言通过一种被称为“迭代学习”(iterated learning)的过程进行传递,即从一个学习者传给下一个学习者。图10.1a 示意性地展示了迭代学习最简单的形式:语言沿着一条单一的学习者链依次传递。每位学习者观察前一位学习者所产生的语言数据,形成一个假设,然后基于该假设生成新的数据,提供给下一位学习者。
![]()
一个自然的问题是:这种通过迭代学习进行传递的过程,会对语言的结构产生怎样的影响?图10.1b 表明,我们可以将这种简单的迭代学习形式分析为一个关于数据 d和假设 h的马尔可夫链(Markov chain)。如果我们假设学习者采用贝叶斯推理,那么该马尔可夫链中的转移概率就来自于:首先从后验分布 p(h∣d)中对假设 h进行抽样,然后根据对应的似然函数 p(d∣h)生成新的数据 d。
将迭代学习形式化为马尔可夫链,使我们能够提出一个问题:该马尔可夫链的平稳分布(stationary distribution)可能是什么?回想一下,只要满足遍历性(ergodicity)条件(见第6章),马尔可夫链最终会收敛到其平稳分布。Griffiths 和 Kalish(2005;2007)证明,如果所有学习者拥有相同的先验分布,那么假设 h上的平稳分布就是该先验分布 p(h)。在语言学习的语境下,这意味着随着时间推移,语言会逐渐演化,变得更容易学习,即更符合人类归纳偏见(inductive biases)——这些偏见正体现在该先验分布之中。
这一理论分析对理解文化传递可能具有重要启示,但需要通过实证加以验证。Kalish、Griffiths 和 Lewandowsky(2007)开展了一项实验,为该理论提供了良好的检验。他们使用了第9章讨论的函数学习任务:参与者在计算机屏幕上看到两个变量之间的关系(以彩色条形表示)。他们先观察这两个变量的50对数值,然后被要求基于其中一个变量的值,预测另一个变量的50个值。这50个预测值被作为下一位参与者的输入数据,从而构成一条迭代学习链。
函数学习是检验该理论的理想案例,因为人们对函数的归纳偏见已被充分研究。数十年来关于人类函数学习的研究表明,人们最容易学习正线性函数(即斜率为正的线性函数),其次是负线性函数,最后才是非线性函数。我们可以将这些知识转化为一个先验分布:如果某个假设具有更高的先验概率,那么只需较少与该假设一致的数据,就能获得较高的后验概率——也就是说,该函数更容易被学会。因此,我们应预期人们在函数空间上的先验分布会赋予正线性函数较高的概率。
因此,Griffiths 和 Kalish(2007)对迭代学习的分析预测:在迭代函数学习过程中,正线性函数应以高概率浮现出来。
图10.2 展示了 Kalish 等人(2007)的实验结果。无论初始链如何设置,经过仅九轮传递后,所有链都主要由正线性函数主导。这些结果强有力地支持了如下观点:迭代学习所产生的结果与人们的归纳偏见一致。迭代学习所建立的正反馈过程——即初始数据反复通过一个带有偏见的学习系统——显著放大了这些偏见。实际上,在第一轮中我们已经可以察觉人们更容易学习正线性函数:正线性函数的预测误差更少,而对其他类型函数的预测误差也倾向于向正线性方向偏移;但在最后一轮中,这种趋势变得更为明显。
![]()
这些结果引出了另一种可能性:我们可以将迭代学习作为一种实验范式,用于测量人们的先验分布。实际上,并不需要在参与者之间真实传递信息——我们可以在单个参与者内部构建一个马尔可夫链,让每位参与者经历一系列试验,其中后续试验所呈现的刺激由其在先前试验中的反应决定。
![]()
图10.3 显示了将迭代学习应用于“预测未来”任务所得到的估计平稳分布。这些平稳分布是通过汇总所有参与者各条链后半部分的数据估计得出的。结果显示,这些估计的平稳分布与现实中这些数量的真实分布高度吻合,支持了如下假设:迭代学习可用于估计人类的先验分布。后续研究已采用相同方法估计了人们对概念(Griffiths, Christian, & Kalish, 2008a;Canini, Griffiths, Vanpaemel, & Kalish, 2014)和因果关系(Yeung & Griffiths, 2015)的先验分布。
![]()
![]()
尽管我们在此聚焦于先验的推断,但值得注意的是,迭代学习也可用于研究人类感知、学习和记忆对跨代传递的文化产物所产生的预期影响。Xu、Dowman 和 Griffiths(2013)利用一组孟塞尔(Munsell)色卡(见图10.5a)研究了文化传递对颜色词系统的影响。这些色卡最初用于“世界颜色调查”(World Color Survey, WCS;Kay et al., 2009),该调查从全球非工业化社会中收集了大量跨文化的颜色词系统样本。实验中,参与者最初看到一组随机选取的颜色子集(图10.5b 顶部),这些颜色被任意划分为若干类别,并用伪词标记;随后,参与者需将所学知识推广到其余颜色上(即对新颜色进行分类)。一代学习者的结果成为下一代学习者的输入。重要的是,不同实验条件下颜色词的数量有所不同,以此模拟不同语言中“基本”颜色词数量的差异。令人惊讶的是,仅经过13轮迭代,所生成的人工颜色系统就与世界各地真实文化中的颜色系统呈现出显著相似性(比较图10.5b 与 10.5c)。
![]()
理解迭代学习为何会收敛到先验分布的一种方式,是认识到它本质上是一种吉布斯抽样(Gibbs sampling)形式(见第6章)。在吉布斯抽样中,我们通过迭代地对每个变量从其条件分布(给定其他所有变量当前取值的情况下)中抽样,来构建一个马尔可夫链,使其最终收敛到一组变量上的特定平稳分布。
![]()
这为我们提供了另一种理解迭代学习作为实验方法的视角:它实际上是一种吉布斯抽样算法的实现,只不过样本是由人而非计算机生成的。这一观点在抽样算法与实验范式之间建立了联系,使得我们有可能将计算机科学家用于从计算机所表示的分布中生成样本的方法,转化为认知科学家用于从人们头脑中的主观分布中生成样本的方法。
10.3 串行再现(Serial Reproduction)
与迭代学习密切相关的方法此前已被心理学家用于研究人类认知对文化信息传递的影响。其中最著名的是 Bartlett(1932)提出的串行再现范式(serial reproduction paradigm)。在该范式中,一名参与者会看到一个刺激(例如一个故事或一幅图像),经过一段延迟后凭记忆对其进行再现。第一位参与者所生成的再现结果随后展示给第二位参与者,由后者再进行一次再现。随着这一过程不断重复,原始刺激会发生显著变化。
知觉与记忆都是带有噪声的过程;图像和声音在传递过程中几乎总会发生失真,而人们对故事或图像的最初印象也远非永久不变。为了应对这类不确定性,人类常常依赖先验信息来填补缺失的部分。这种对先验信息的依赖往往会引发系统性偏差,即参与者的平均反应会偏离真实刺激。这类先验信息可能反映的是外部世界中刺激的分布 x(Jacoby & McDermott, 2017;Langlois, Jacoby, Suchow, & Griffiths, 2021),也可能是人们从这些刺激中推断出的潜在状态 μ(Xu & Griffiths, 2010)。
串行再现(serial reproduction)正是利用了这一观察结果,构建了一个能够精确刻画人类先验信息的过程。通过反复地观察并凭记忆再现刺激,由内化先验所导致的系统性偏差会逐步累积并显现出来。换句话说,串行再现以一种放大知觉与记忆偏差的方式,揭示出产生这些偏差的共享先验。
![]()
串行再现已被用于研究多种领域中的先验。Xu 与 Griffiths(2010)通过将其应用于简单的一维(1D)领域,验证了该范式的实用性。例如,在一项任务中,参与者被训练区分两类鱼(即养殖鱼和海洋鱼)。鱼的刺激以示意图形式呈现,仅在宽度上有所变化:养殖鱼的宽度服从某一均值和方差的正态分布,而海洋鱼的宽度则服从均匀分布。通过让参与者在不同养殖鱼分布下进行训练,随后进行串行再现任务(参与者看到一条鱼并需再现其宽度,且已知该鱼来自养殖场——初始鱼未必来自训练分布),作者表明该过程能逐步恢复出训练所用的分布。
在更复杂的应用中,Langlois 等人(2021)通过迭代一项任务揭示了空间记忆中的共享先验:参与者需在图像内精确再现点的位置(见图10.6)。任务中,参与者首先看到一个红色点随机出现在某张图像(如灰色圆形或三角形)上;经过一段延迟后,图像再次出现但红点消失,参与者需指出红点在刺激阶段的确切位置(图10.6a 展示了任务与串行再现流程)。以往研究(Huttenlocher, Hedges, & Duncan, 1991;Wedell, Fitting, & Allen, 2007)已指出空间记忆中存在一致的偏差,例如在三角形图像中,点的再现位置明显偏向三角形的顶点。而串行再现揭示了以往实验方法未能捕捉到的细节(图10.6c):特别地,它发现当图像为圆形时,点位置的空间记忆偏差指向象限的边界,而非象限中心——这与 Huttenlocher 等人(1991)及 Wedell 等人(2007)的先前结论不同(见图10.6a 和 c)。
![]()
先验可能源于实验过程中与刺激的短期互动(Xu & Griffiths, 2010;Jazayeri & Shadlen, 2010),也可能来自贯穿一生的、依赖文化的学习经验,例如语言或音乐。例如,Jacoby 与 McDermott(2017)利用串行再现揭示了节奏知觉中依赖文化的先验。在他们的任务中,参与者听到一段简单的随机节奏,并通过手指敲击进行再现。结果显示,西方参与者与来自玻利维亚亚马逊地区的参与者在节奏表征上存在显著差异(见图10.7)。在该项目的扩展研究中,Jacoby 等人(2024)调查了来自15个国家、39个群体的参与者。他们发现,先验依赖于各文化中音乐实践的特性,但也存在普遍性特征,例如在小整数比处形成离散的节奏类别。综合来看,这些研究凸显了串行再现作为一种现代工具的前景:它可用于广泛情境中研究知觉先验,并对不同群体间的先验进行有意义的比较。
![]()
10.4 与人共用的马尔可夫链蒙特卡洛方法(Markov Chain Monte Carlo with People)
迭代学习和串行再现是研究特定类型主观概率分布的有效方法:迭代学习可以揭示指导学习的先验分布,而串行再现可以揭示指导知觉与记忆的先验分布。然而,本书中所呈现的贝叶斯模型假设了多种类型的主观概率分布,这些分布并不属于上述两类。例如,分类模型假设类别与刺激上的概率分布相关联。那么,如何估计这些分布呢?
解决估计主观概率分布这一更广泛问题的一种方法,是抓住迭代学习与串行再现背后的核心洞见——即马尔可夫链蒙特卡洛(MCMC)算法(如吉布斯抽样)可以用人类来实现,并加以推广。幸运的是,还有其他类型的MCMC算法也可以与人一起使用,其中最著名的便是Metropolis-Hastings算法(Metropolis等, 1953; Hastings, 1970)。
Sanborn及其同事(Sanborn & Griffiths, 2008; Sanborn, Griffiths, & Shiffrin, 2010b)探索了Metropolis-Hastings算法作为从主观概率分布中抽样的方案的潜力。该算法并不要求参与者像在迭代学习中那样生成新的实例。相反,他们被给予两个项目之间的选择,而这两个项目是以某种方式选出的,以便它们能够实现一个MCMC算法。在Metropolis-Hastings算法中,通过使用一个建议分布(proposal distribution)提出当前状态的一个变异,并结合一个依赖于目标分布的接受规则来决定是否接受该变异,从而构建出一个收敛到特定平稳分布的马尔可夫链。Sanborn及其同事意识到,这种结构可以自然地转化为一种实验范式。
![]()
择结果作为新的当前值。因此,公式(10.1)就成为该算法中的接受概率,从而产生一条以 p(x)∝f(x)为其平稳分布的马尔可夫链。
尽管公式(10.1)与 Metropolis-Hastings 算法中使用的接受规则并不完全相同,但它对应于另一种有效的接受规则,即所谓的“Barker 规则”(Barker, 1965;Neal, 1993)。并且很容易验证,它满足第6章所讨论的细致平衡(detailed balance)条件。
“与人共用的马尔可夫链蒙特卡洛方法”(Markov Chain Monte Carlo with People, MCMCP)的一个具体应用是估计自然范畴的结构。如果包含对象 x的范畴 c由概率分布 p(x∣c)表示,那么我们可以通过向人们呈现两个对象并要求他们判断哪一个更可能属于该范畴,来构建一个满足公式(10.1)且 f(x)=p(x∣c)的任务(详情见 Sanborn 等, 2010)。这提供了一种探索人们通过经验习得的范畴(即“自然范畴”)结构的方法。
Sanborn 等人(2010)开展了一项实验:参与者看到的是在九个维度上变化的简笔画动物(例如头部角度、颈部长度等),并被要求判断特定简笔画属于四个范畴(猫、狗、马、长颈鹿)中的哪一个。提议分布(proposal distribution)是在这个九维空间中的一个高斯分布,并带有小概率发生大幅跳跃到更远点的机制。经过数百次选择后,由参与者反应生成的马尔可夫链倾向于收敛到该空间中的特定区域,为不同范畴分别刻画出不同的分布。图10.8展示了某位参与者的结果。
![]()
其他应用实例还包括:探究直觉物理中的心理表征(Cohen & Ross, 2009)、卡通面部表情(McDuff, 2010),甚至人们说“睡了个好觉”时实际所指的主观体验(Ramlee, Sanborn, & Tang, 2017)。
该方法可以扩展到比简笔画实验中使用的九维空间多得多的维度。Martin、Griffiths 和 Sanborn(2012)将其应用于一个由人脸图像特征向量(即“特征脸”,eigenfaces)定义的175维空间中,以研究面部表情。该实验中的参与者看到成对的人脸,并被要求判断哪一张脸看起来更开心或更悲伤。实验中的马尔可夫链在参与者之间相互连接:前一位参与者最后选择的人脸,成为下一位参与者的起始点。该过程最终生成了逼真且难以用语言描述的面部表情,如图10.9e 中的特征脸结果所示。
![]()
当然,即使是 Metropolis-Hastings 算法,在高维空间中对复杂概率分布进行抽样时也会遇到困难。尽管采样器最终会收敛到正确的分布,但可能需要过多的试验次数,使得该方法在人类参与者身上应用时变得不可行。幸运的是,Metropolis-Hastings 是一种极其灵活的算法,研究人员已开发出许多巧妙的方法来提高其效率。其中一种方法是向采样器引入“动量”(momentum)的概念,这样当马尔可夫链沿着高概率的山脊移动时,它倾向于停留在该山脊上,而不会浪费时间去探索低概率的山谷。在实验中穿插一些让参与者选择采样器未来移动方向的环节,也可以提高其效率(Blundell, Sanborn, & Griffiths, 2012)。
尝试为图像构建特征空间的一个问题是:这非常困难,并且通常像特征脸(eigenfaces)的情况一样,特征空间中的点并不对应任何可感知的真实图像。一种替代构建特征空间的方法是直接使用真实图像。Hsu、Martin、Sanborn 和 Griffiths(2019)将这一方法扩展应用于估计离散刺激集上的分布的情形。在这种情况下,提议分布通过在刺激上使用相似性度量来构造一个 b-匹配图(b-matching),即每个节点都与另外 b 个节点相连的图。图中的每个节点对应一个刺激,连接关系则确保刺激与其相似的其他刺激相连接。因此,用于“与人共用的马尔可夫链蒙特卡洛”(MCMCP)算法的提议分布,就是在该图上进行随机游走——在每个节点处均匀随机地选择一条 b 条边之一。由于每个节点具有相同数量的边,该分布是对称的。
图10.9 展示了该方法如何应用于一组代表不同情绪的面部图像。首先使用计算机视觉算法构建相似性矩阵,再由 b-匹配算法构建图。人们看到图中互为邻居的一对人脸,并被要求选择哪一张脸更符合某一类别——在此例中,即“快乐的脸”。Hsu 等人(2019)发现,这种方法优于一种先将人脸转换到连续空间、再在该空间内应用高斯提议分布的 MCMC 算法。此后,该方法已被进一步应用于更好地理解外科医生如何在心理上表征肱骨骨折(Jabbar et al., 2013)。
10.5 与人共用的吉布斯抽样(Gibbs Sampling with People)
尽管 MCMCP 具有灵活性,但该范式在某些领域应用时仍存在一些困难。具体而言,MCMCP 所采用的二选一强制选择界面,每次试验仅提供一位信息。这反过来在高度多模态、需要大量探索的领域中会显得相当耗时。同样,MCMC 算法的表现严重依赖于提议分布的选择:一个过窄的分布可能在实践中无法收敛,而一个过宽的分布则可能遗漏主观分布中的重要细节。当涉及计算机模拟时,这或许不是大问题,因为通常可以相对廉价地尝试多种提议宽度并选择最佳参数(例如,通过交叉验证)。然而,当采样器涉及人类参与者的循环时,情况便截然不同——因为招募人类参与者成本高昂。
![]()
Harrison 等人(2020)将 GSP 应用于对各种领域中主观类别的研究,范围从简单的颜色到完全自然主义的人脸。例如,通过将 GSP 与 StyleGAN(Härkönen, Hertzmann, Lehtinen, & Paris, 2020)潜在空间的前10个主成分相结合(StyleGAN 是一种现代神经网络架构,用于自然主义图像合成),作者表明 GSP 可以有效用于研究人类对人脸类别的偏见(例如,什么构成“严肃”或“年轻”的面孔;见图10.10)。GSP 还已被应用于韵律中情绪原型的研究(Van Rijn et al., 2021)、和弦声学愉悦度的研究(Marjieh, Harrison, Lee, Deligiannaki, & Jacoby, 2022),以及强化学习中结构化任务分布的生成(Kumar et al., 2022)。
10.6 未来方向
MCMC(马尔可夫链蒙特卡洛)和 GSP(与人共用的吉布斯抽样)都说明了:最初为计算机设计的算法,可以被重新诠释为研究人类认知的新方法。关键一步在于设计一项任务,使得将人类行为合理地解释为从某个特定概率分布中抽取的样本成为可能。许多其他算法也利用随机样本来解决特定问题,这提示我们,或许还有更多算法同样可以作为有效的实验方法加以利用。
例如,到目前为止,我们一直将 MCMCP(与人共用的 MCMC)链视为相互独立的实体;然而,现代采样器常常同时运行多条链,以自适应地优化其提议函数(Goodman & Weare, 2010)。因此,可以设想设计出新的实验范式,让多条采样链之间共享信息,从而实现更好的收敛性能。同样,MCMC 与确定性优化可被视为一个连续谱系的两个极端:在这个谱系中,人们通过调节过程的随机性(或“温度”)来控制算法行为。MCMC 属于“高温”情形,目标是在分布中充分游走,访问低概率区域也是可以接受的;而优化则属于“低温”情形,此时状态的改变应使其概率增加。Harrison 等人(2020)指出,在与人共用的 MCMC 算法中,一种控制这种随机性水平的方法是在每次迭代中聚合多个参与者的判断,从而使采样器行为趋向更确定性。如果我们关注的是刻画分布的众数(modes)而非整体形状,或者希望在由一群参与者定义的主观损失函数上进行优化,这种方法尤其有用。可能存在的优化器数量不亚于采样器,将它们纳入现代心理学家的方法工具箱,将具有巨大价值。
更广泛地说,认知科学所使用的方法正开始经历一场重要变革。在20世纪,对心智的研究成为一门科学,而在此后大部分时间里,它采用了一种特定的方法论:人们来到实验室,完成大约一小时的任务,可能被分配到少数几种实验条件之一。这种方法论在一定程度上是实体实验室运行限制的结果:参与者需要专程前往,因此让他们停留较长时间是合理的;实验由研究助理实施,因此无法操纵太多变量。
而21世纪的认知科学则处于截然不同的境况。实验越来越多地通过在线众包服务平台进行。很多时候,这些实验只是传统实验室实验的规模化版本。然而,众包平台与实体实验室有着完全不同的特性:人们可以因做出单次决策而获得报酬,而呈现给他们的任务则由一台计算机动态选择——该计算机能够访问所有先前的决策记录。这种环境为探索创新性实验设计提供了更大的自由度,也使得实验本身越来越像“与人一起运行的算法”。如果能借鉴计算机科学和统计学的思想,智能地设计这些算法,就有可能更深入地揭示人类认知的本质(关于这一点的进一步讨论,参见 Suchow & Griffiths, 2016b)。
10.7 结论
认知的贝叶斯模型假设了在复杂、高维对象上的概率分布,而这些分布很难通过传统的引出方法进行估计。然而,目前已有多种方法可用于估计这些分布,它们借鉴了计算机科学和统计学中用于估计概率分布的算法。迭代学习可用于估计指导学习过程的先验分布;串行再现可用于推断导致知觉与记忆偏差的先验分布;MCMC(马尔可夫链蒙特卡洛)和GSP(与人共用的吉布斯抽样)则提供了更为通用的算法,能够在极其多样的情境中揭示心理表征的结构。正如计算机科学家和统计学家不断革新他们用于估计概率分布的方法一样,我们认为这些方法为构建更多深入理解人类认知的新工具奠定了坚实基础。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.