贝叶斯认知模型逆向工程思维 11 12|高斯|算法|聚类|人工神经网络|深度思考模型

分享至

贝叶斯认知模型 逆向工程思维

Bayesian Models of CognitionReverse Engineering the Mind

https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html

11章：抽样是跨越分析层次的桥梁

如第2章所述，认知的概率模型通常定义在马尔（Marr, 1982）所称的“计算层面”（computational level），即刻画人们需要解决的抽象问题及其解决方案的逻辑。研究通过将这些理想化解决方案与人类行为进行比较，并利用比较结果来修正模型背后的假设。

这种方法与传统研究心智的方法大相径庭。历史上，认知心理学家所构建的模型主要涉及马尔所说的“算法层面”（algorithmic level），聚焦于识别行为背后的认知过程，即阐明大脑为解决计算层面所界定的问题而进行的具体计算。神经科学则进一步增加了“实现层面”（implementational level）的分析，探讨这些认知过程如何在大脑中得以实现。

这就引出了一个基本问题：这些不同分析层面之间的洞见是如何关联的？理解不同分析层面模型之间的关系，对于评估认知的概率模型能为心理学做出何种贡献至关重要。

马尔（1982）在40年前提出了计算层面的概念，而谢泼德（Shepard, 1987）和安德森（Anderson, 1990）的工作早期就展示了这一方法的潜力。然而，本书所讨论的各类现象均通过认知的概率模型加以解释，这使得理解计算层面分析对算法层面和实现层面解释的含义成为一个紧迫议题（例如 Anderson, 1991a）。阐明这种关系，既关乎实证数据的解释，也涉及不同理论取向之间的兼容性。

在实证方面，我们需要厘清：人类行为偏离理想计算解，究竟是因为对问题本身的设定存在错误假设（或错误地假定人类行为是理想化的），还是因为这些偏离揭示了人类用以近似理想解的认知与神经过程。通过寻找对理想理论的偏离来识别认知过程，这一策略在过去已被证明极为有效，其中“启发式与偏差”研究纲领（Tversky & Kahneman, 1974）便是最佳例证之一。认知的概率模型通过拓展我们能够界定理想解的问题范围，有可能使这一策略适用于更广泛的领域。

在理论层面，我们需要明确：证明人类行为与某一特定概率模型一致，是否构成对某一算法层面或实现层面理论的反证，抑或这些解释仅仅因为处于不同分析层面而彼此无关。例如，概率模型支持者与联结主义模型支持者之间争论的一个关键问题在于（Griffiths, Chater, Kemp, Perfors, & Tenenbaum, 2010；McClelland 等, 2010）：许多概率模型采用结构化的离散表征，而联结主义模型则使用连续的、渐变的表征，后者在适当情况下可以模拟离散结构。然而，由于概率模型通常定义在计算层面，而联结主义模型通常定义在算法或实现层面，目前尚不清楚这种差异是否反映了根本性的不兼容。若不能明确在何种条件下，使用连续表征和通用学习算法的神经网络能够近似实现基于离散表征的概率推理，我们就无法判断某一特定概率模型是否与某一特定联结主义模型相矛盾。

在本章中，我们将探讨如何在认知的概率模型框架内，搭建不同分析层面之间的桥梁。特别地，我们将考察用于近似概率推理的算法如何也能为人类心智与大脑所使用的算法提供假设来源。本章基于并扩展了 Griffiths、Vul 和 Sanborn（2012b）的研究。

11.1 一种连接不同分析层面的策略

马尔（Marr, 1982）在提出信息处理系统的不同分析层面概念时，预期各层面之间存在相互约束关系。计算层面的分析对算法层面和实现层面的分析施加了强有力的约束：无论认知与神经过程采取何种形式，它们都必须能够近似计算问题的理想解。反过来，算法层面和实现层面的考量也对计算层面的理论构建形成约束：我们知道，计算问题的理想解必须通过特定的认知与神经过程来近似实现。正如物理、生化和生理因素塑造了进化所能找到的环境问题解决方案（例如，排除了轮子、喷气发动机和硅芯片等可能性），人类心智与大脑的结构也应约束我们对计算问题所考虑的解决方案。

按照这一逻辑，若观察到人类行为与某一概率模型的预测一致，则意味着人们在解决该问题时所使用的认知与神经过程在某种程度上近似实现了概率推理。这提示了一种连接不同分析层面的策略：聚焦于计算机科学和统计学中用于近似概率推理的算法，并将这些算法作为认知与神经过程的候选模型加以探索。由此产生的模型被称为理性过程模型（rational process models；Sanborn 等, 2010a；Shi, Griffiths, Feldman, & Sanborn, 2010），这类模型旨在更深入地理解算法层面和实现层面所运作的过程，同时其动机源于指导计算层面模型构建的理性原则。

理性过程模型（rational process models）采取了一种不同于传统认知心理学中构建计算模型的策略。传统策略始于一组假设的心理机制，并考察这些机制如何组合以模拟行为；而理性过程模型则从一个用于近似概率推理的算法出发，首先考察该算法的组成部分是否与我们已知的认知过程一致，然后检验该模型在多大程度上拟合实际行为。由此得到的一类模型，能够保证近似实现概率推理，但其对理想解的偏离方式恰恰可以揭示人类判断背后所依赖的过程。事实上，人们所期望的是：理性过程模型偏离完美理性的那些方式，恰好就是人类行为偏离理想理性解的方式。

11.2 蒙特卡洛作为一种心理机制

哪些认知与神经过程有可能近似实现认知的概率模型所识别出的理想解？如第6章所述，计算机科学和统计学中用于近似概率推理的主要策略之一是蒙特卡洛原则（Monte Carlo principle）：即使用来自概率分布的样本进行计算，而非直接操作分布本身。研究者已提出多种复杂的蒙特卡洛算法，可在各种情境下近似实现概率推理。这些算法为可能的理性过程模型提供了丰富的假设来源。

人类可能通过抽样来近似概率推理的观点，与认知心理学中长期存在的文献有着密切联系。抽样是多种关于选择与决策的心理学理论的基本组成部分（Luce, 1959；Busemeyer, 1985；Stewart, Chater, & Brown, 2006）。抽样过程可以解释为何在简单估计任务中，反应的概率似乎与相应假设的后验概率一致（Vul, Goodman, Griffiths, & Tenenbaum, 2014），甚至可以解释儿童在进行因果推断时如何在多个假设之间进行选择（Denison, Bonawitz, Gopnik, & Griffiths, 2013）。不同形式的抽样还能与可得性启发式、代表性启发式以及锚定与调整启发式高度对应（Chater 等, 2020）。

现代蒙特卡洛方法（即第6章所讨论的类型）提供了从概率分布中抽取样本的创新方式，从而为定义更复杂的理性过程模型创造了机会。在本章余下部分，我们将探讨三种蒙特卡洛方法——重要性抽样（importance sampling）、粒子滤波（particle filters）和马尔可夫链蒙特卡洛（MCMC）——如何用于为认知的不同方面构建理性过程模型，以及它们如何帮助我们连接不同分析层面。

11.3 作为重要性抽样器的范例模型

第6章介绍的最简单的蒙特卡洛方法之一是重要性抽样（importance sampling），即从一个不同于目标分布的分布中抽取样本，然后对其进行重新加权，以近似从目标分布中抽取的样本。一种用于贝叶斯推理的简单重要性抽样算法是从先验分布 p(h)中抽取假设 h，然后根据似然函数 p(d∣h)对这些假设进行加权，从而得到后验分布 p(h∣d)的近似。这一算法——似然加权（likelihood weighting）——可转化为一种自然的过程模型，用于近似简单的概率推理：一个人回忆过去的事件，并根据它们与当前事件的相似性从记忆中提取这些事件。过去的事件充当了来自先验的样本，而相似性函数则对应于似然函数。这是一种范例模型（如第5章所讨论），且可以证明重要性抽样等价于过去用作过程模型的一种范例模型的形式化定义。其结果是一个简单的理性过程模型，能够近似人类在多种任务中的行为——这些任务此前已使用认知的概率模型进行了分析（Shi 等, 2010）。

现在，我们将把这个广义范例模型的预测与使用似然加权近似的贝叶斯模型进行比较。假设我们观察到一个刺激 x，我们认为它被噪声污染了，并且可能缺失了一些伴随信息，例如类别标签。令 x* 表示未被污染的刺激。我们的目标仅仅是重建 x，找到与其对应的 x* 的值。利用概率分布 p(x|x*) 来刻画噪声过程的后果，并用 p(x*) 来编码我们关于看到给定刺激的概率的先验信念，我们可以应用贝叶斯规则来计算后验分布 p(x*|x)。具体而言，我们有

其中，p(x|x*) 是似然函数，p(x*) 是先验概率。所得的后验分布可用于回答关于 x* 性质的问题。

简单蒙特卡洛方法和重要性采样均可应用于在 x* 的后验分布上评估函数 f(x*) 的期望值问题。简单蒙特卡洛方法会直接从后验分布 p(x*|x) 中抽取 x* 的样本值。重要性采样则会从另一个分布 q(x*) 中生成样本，然后对这些样本进行重新加权。q(x*) 的一个简单选择是先验分布 p(x*)。如果我们从先验分布中抽取 m 个样本，则分配给每个样本的权重与后验分布和先验分布的比值成正比：

这仅仅是第6章中介绍的似然加权程序。

我们现在可以观察到广义范例模型与通过似然加权近似的贝叶斯方法之间的一种形式上的等价性。如果我们的范例集 X 是从概率分布 p(x*) 中抽取的，那么在方程 (11.1) 定义的分布 Pe(xi|x) 上对任意函数 f(·) 的期望，就是对 f(x*) 在 x* 的后验分布（如方程 (11.4) 所示）上的期望的一个重要性采样器，该后验分布对应于先验为 p(x*)、似然为 p(x=xn|x*=xi) ∝ ηni 的贝叶斯模型。

图 11.1 展示了使用这种基于范例的方法来近似“预测未来”问题中的贝叶斯推断的结果。在此情况下，评估了两种类型的范例模型。第一种是“计算受限”模型，其中将计算量视为瓶颈，从而限制了具有非零权重的范例数量。第二种是“记忆受限”模型，无论其权重如何，范例的总数都受到限制。这两种范例模型即使在样本数量很少的情况下，也能很好地近似后验分布的中位数，其效果可与直接从后验分布采样相媲美。

11.4 粒子滤波器与顺序效应

粒子滤波器是一个特别有吸引力的候选模型，用于解释人们如何在记忆或计算能力受限的情况下，仍能产生符合贝叶斯推断的行为。这是因为粒子滤波器提供了一种通用方法，可依次更新信念（即，使用重要性采样根据新观测数据的似然对样本进行加权；参见第6章），该方法可应用于广泛的模型。

作为一个例子，我们将展示粒子滤波器如何用于一个无限混合模型中的推断，以推断刺激物是如何聚类的。具体而言，我们将说明当该算法应用于第9章介绍的安德森的理性分类模型（Anderson, 1991a）时的工作原理，该模型在聚类大小上使用了中国餐馆过程（CRP）先验。第9章也介绍了使用CRP进行推断的吉布斯采样算法，但分类判断往往需要在观测数据陆续到达时做出，因此我们在此处改用粒子滤波器。图11.2说明了具有两个粒子的粒子滤波器如何处理三个按顺序呈现的刺激物。由于在第一次观测后只存在一种可能的刺激物聚类方式，两个粒子均代表这种聚类。接下来，在观察到第二个刺激物后，会计算每个粒子的每个“后代”的似然——即，将新观测分配给每个现有聚类以及将其分配至其自身独特聚类的概率。由于过去观测的聚类比例充当先验，所有已观测刺激物的聚类后验分布即为每个后代的相对似然，并受约束使得与每个祖先粒子相关的后验概率相等。为了保持表征复杂度恒定，从该后验分布中抽取两个新的粒子，然后重复该过程。

粒子滤波器可能表现出一种在人类行为中常被观察到的特征性偏差，即对序列中较早呈现的数据更为敏感，这被称为首因效应。这类顺序效应已在分类任务中被观察到。例如，在安德森和马泰萨的一项实验中（报告于 Anderson, 1990），参与者被给予同一组刺激物，在观察完所有刺激物后，他们被要求将它们分成两个大小相等的组。刺激物的呈现顺序在参与者之间进行了操控，以强调一组或另一组特征，而参与者倾向于根据其排序首先强调的特征来对刺激物进行分组。这种顺序效应是由粒子滤波器产生的，因为过去的聚类不会被重新审视。每个粒子都提供了一个关于过去观测聚类的确定性解释，而不确定性则通过粒子上聚类分布来体现。当粒子数量无限时，所有可能的过去聚类都将被表示出来；但当粒子数量有限时，许多低概率的聚类将缺失。如果后续观测极大地增加了这些假设的概率，则粒子滤波器可能无法快速适应。如图11.2所示，偶然情况下，前两个刺激物总是在最终粒子中出现在同一个聚类里。如果后续刺激物开始表明对项目进行聚类的最佳方式是依据它们是圆形还是方形，那么粒子滤波器的适应速度将比理想情况更慢。

除了这些由重采样粒子产生的首因效应外，粒子的扰动还会产生近因效应，即最近的数据具有更强的影响（Abbott & Griffiths, 2011）。人类行为中首因效应和近因效应的存在曾被用来反驳认知的概率模型，因为许多此类模型假设观测数据是独立的，因此对顺序不敏感（例如，Kruschke, 2006）。粒子滤波器说明了此类顺序效应如何作为近似贝叶斯推断的结果而产生。基于粒子滤波器的行为模型已被应用于一系列问题，包括类别学习（Lloyd, Sanborn, Leslie, & Lewandowsky, 2019; Sanborn et al., 2006, 2010a）、联想学习（Daw & Courville, 2008）、因果学习（Abbott & Griffiths, 2011）、物体视觉追踪（Vul et al., 2009）以及句子理解（Levy, Reali, & Griffiths, 2008）。

11.5 马尔可夫链蒙特卡洛与随机搜索

在第6章中，我们讨论了马尔可夫链蒙特卡洛（MCMC）算法作为一种近似后验分布的方法，其通过构建一条马尔可夫链，使该链随时间推移收敛到目标分布。MCMC算法与其他采样方案具有非常不同的特点：它通常只维护一个样本，该样本逐步逼近后验分布，随后在该分布内进行随机探索。这类算法让人联想到一种认知过程——在假设空间中进行搜索，以找到能够对已有证据提供良好解释的假设，即进行某种“随机搜索”。

这种过程在两个情境中尤为突出：记忆检索和理论构建。

在试图从记忆中提取信息时，我们常常会有一种在多个候选记忆中搜索、以找到符合目标内容的感觉。一个明确体现这种过程的任务是“远距离联想测验”（Remote Associates Test，Mednick, 1962）。在该任务中，参与者会收到三个词，每个词都与某个目标词相关，任务是找出这个目标词。这个问题可以被形式化为一个概率推断问题：如果某个特定词是目标词，那么这三个词被生成的可能性有多大？因此，该任务可以通过类似Metropolis-Hastings算法的过程来解决：从一个关于目标词的初始假设出发，利用适当的语义表征生成一个假设变体，并比较原始假设与变体的后验概率相对大小。Smith、Huber 和 Vul（2013）发现，人们在远距离联想测验中的反应呈现出序列依赖模式，这与在可能答案集中进行随机搜索的行为一致；Bourgin、Abbott、Griffiths、Smith 和 Vul（2014）进一步证明，这种行为可以用 Metropolis-Hastings 算法的一种变体加以解释。

记忆搜索并非我们唯一需要努力寻找好答案的情境。从许多方面来看，这正是科学家面临的基本问题：寻找能够解释观测数据的优良假设——即理论。然而，科学家并非唯一需要理论的人。一种有影响力的观点认为，儿童通过一个与科学家非常相似的过程来发展对世界的直觉性理论（Carey, 1985；Gopnik & Meltzoff, 1997；Wellman & Gelman, 1992）。因此，理解人们如何探索理论空间，对于理解我们如何构建对周围世界的因果模型具有潜在意义。

Ullman、Goodman 和 Tenenbaum（2012）提出，这种理论形成过程可以被理解为 MCMC 等随机搜索算法的结果。他们展示了这种方法能够发现用简单逻辑语言表达的有意义理论，涵盖直觉生物学和物理学中的概念，如分类体系（taxonomies）和磁性（magnetism）。特别地，该随机搜索算法在探索假设时，再现了人类认知发展的某些方面——在搜索过程的早期阶段，算法考虑的假设更类似于年幼儿童所持有的假设。

MCMC 算法还为认知的其他方面提供了未来的解释方向。例如，Gershman、Vul 和 Tenenbaum（2012）认为，知觉多稳态现象（perceptual multistability）——即同一个刺激在不同知觉解释之间来回切换——可以通过类似于 Metropolis-Hastings 算法的方式来解释，因为知觉背后的推断问题正是通过此类算法求解的。这些算法所导致的信念更新具有迭代性和渐进性，这也为我们思考人们在解决判断问题时所生成假设的时间序列提供了思路（Lieder, Griffiths, Huys, & Goodman, 2018b, 2018c；Dasgupta, Schulz, & Gershman, 2017）——我们将在第13章再次回到这一主题。

11.6 一种更贝叶斯的采样方法

在贝叶斯模型中，概率分布——无论其是否准确——都是被精确已知的。然而，对于重要性采样、粒子滤波器和MCMC等采样算法而言，除非样本数量趋于无穷，否则情况并非如此。对于有限的样本量，样本集合中的相对频率仅能对底层概率提供一个带有噪声的估计。在统计学和机器学习中，这种噪声通常通过生成大量样本来加以抑制。但这种计算密集型的解决方案对人类而言并不可行，因为人在做判断或决策时似乎只能考虑少量样本（Juslin, Winman, & Hansson, 2007；Sundh, Zhu, Chater, & Sanborn, 2023；Weber et al., 2007）。

幸运的是，存在一些方法可以在样本数量较少的情况下改进判断与决策。与其依赖样本中的相对频率，不如将贝叶斯方法再推进一步：对底层概率本身设定一个先验，使得估计出的概率同时依赖于该先验和所生成的样本。这种方法在统计学和机器学习中被称为贝叶斯蒙特卡洛（Bayesian Monte Carlo；Rasmussen & Ghahramani, 2003）。实际上，它包含两个阶段的贝叶斯推断：首先，基于从外部世界获取的信息，通过采样对贝叶斯推断进行近似；其次，对这些内部生成的样本再次进行贝叶斯推断，从而产生最终判断。

由于对底层概率分布缺乏详细知识（相关信息通常只能来自样本本身），用于对样本进行贝叶斯推断的先验必然是相当通用的。一个简单例子是从一组样本中估计一个二元变量的概率，例如估计明天是否会下雪。如果在 n 个样本中有 k 个表示会下雪，那么频率学派的估计就是 k/n。然而，可以通过对这些概率设定一个先验来融入关于样本概率的先验知识，常见的选择是对称的 Beta 分布，参数为 β。当 β = 1 时，这是均匀分布，所有概率值等可能；当 β < 1 时，极端概率（0 和 1）比 0.5 更可能；当 β > 1 时，0.5 比 0 和 1 更可能。这一先验并不包含关于“明天是否下雪”这一具体问题的信息，而是必须适用于可能被提出的一系列问题。引入该先验后，概率估计的均值变为 (k + β) / (n + 2β)，因此只要 β > 0，估计值就会向概率范围的中间偏移。当该先验正确反映了其适用情境的分布范围时，这种对估计的“缓和”作用可降低其均方误差；即使 β 设定不准确，这种做法通常也表现良好（Zhu, Sanborn, & Chater, 2020）。

采用这种被称为贝叶斯采样器（Bayesian sampler）的方案，使得理性过程模型能够解释大量此前难以解释的人类概率判断偏差（Zhu et al., 2020）。例如，人们著名的概率估计不一致性体现在合取谬误（conjunction fallacy）中：当被要求判断“明天下雪”的概率 P(s) 与“明天下雪且寒冷”的概率 P(s, c) 时，超过随机水平比例的参与者认为 P(s, c) > P(s)（Tversky & Kahneman, 1983）。在像这样简单的设定中（不太可能因为合取事件而引发参与者想到原本不会想到的例子；参见 Sanborn & Chater, 2016），无论采用何种采样算法，仅基于样本相对频率的判断在平均意义上都是符合概率公理的（即不会出现合取谬误）。然而，如果我们假设人们在判断合取事件时所使用的有效样本数 n′ 小于判断单一事件时的样本数 n（即 n′ < n），那么贝叶斯采样器就能产生合取谬误。这是因为先验对合取判断的缓和作用更强，从而可能将平均合取判断拉高到超过单一事件的平均判断之上（Zhu et al., 2020）。此外，假设人们对事件合取所抽取的样本更少，这一假设本身也是独立合理的（例如，回忆或想象同时具有属性 X 和 Y 的实例，可能比仅具有 X 或仅具有 Y 的实例更困难）。当然，这一主张也可以通过实证加以检验。

第二个例子是 Costello 和 Watts（2014）首次探讨的概率恒等式（probabilistic identities）。这些恒等式由不同事件平均判断值的加减组合构成，其构造方式使得概率论预测其精确等于零。此外，尽管基于样本相对频率的反应会带有噪声，但这些恒等式的平均反应在理论上应为零。然而，虽然人们对某些恒等式的平均判断接近零，但对其他恒等式的判断却显著偏离零（见图11.3）。根据 Costello 和 Watts（2014）的噪声模型，贝叶斯采样器可以通过先验对估计的缓和作用，解释为何某些恒等式符合概率论预测（或符合样本频率计数），而另一些则出现偏差（见图11.3）。

对于贝叶斯采样器而言，一个关键问题是：它在多大程度上反映了真实认知机制，还是仅仅是一个“仿佛如此”（as-if）的模型？值得注意的是，贝叶斯采样器所产生的判断影响，也可以由另一种噪声过程产生——即在统计样本相对频率时，每个样本都有固定概率被错误计数（例如，有 0.2 的概率将一个“下雪”样本误读为“不下雪”，反之亦然）。事实上，平均而言，这种噪声过程可以完美模仿贝叶斯采样器的行为（Costello & Watts, 2017, 2019；Zhu et al., 2020）。要区分这两种解释，需要考察判断的均值与方差之间的关系。已有证据表明，人们所使用的先验与实验室外真实概率分布相匹配（Sundh, Zhu, Chater, & Sanborn, 2023）。

11.7 与实现层面建立联系

尽管认知的概率模型通常聚焦于计算层面（computational level），但要全面理解人类认知，仍需回答马尔（Marr）所提出的全部分析层次上的问题。理性过程模型（rational process models）提供了一种系统性地探索这些问题的途径，将计算层面与算法层面（algorithmic level）联系起来。这种策略或许也可用于提出关于实现层面（implementational level）的假设。例如，范例模型（exemplar models）很容易用人工神经网络实现（如 Kruschke, 1992），因此，重要性采样（importance sampling）同样可以相对直接地在一个简单的神经回路中实现（Shi & Griffiths, 2009）。此外，针对粒子滤波器（particle filters），也已提出了多种神经实现方案（Huang & Rao, 2014；Legenstein & Maass, 2014；Kutschireiter, Surace, Sprekeler, & Pfister, 2015）。

在未来，探索这些不同分析层次之间的联系，很可能会成为贝叶斯认知模型支持者的一项重要任务。已有大量研究探讨了大脑可能用于实现贝叶斯推断的机制（参见 Doya, Ishii, Pouget, & Rao, 2007）。然而，这些研究通常聚焦于一种单一的神经机制，并假设该机制可通用于大脑处理的所有问题。而从理性过程模型的角度思考，则暗示了一种不同的路径：由于不同的采样方法更适合解决不同类型的问题，并且似乎能很好地解释不同的心理现象，我们或许可以预期，大脑在进行概率推断时并非仅依赖单一机制，而是采用多种机制。不同的算法可以通过不同方式加以实现或近似。因此，在直接跳向实现层面之前，先考虑算法层面，有助于支持一种机制多元主义（mechanistic pluralism），而非执着于寻找某种单一的解决方案。

11.8 未来方向

理性过程模型已成功解释了多种实证效应，但仍有一些挑战有待解决。第一个挑战是明确在哪些任务中使用了哪种算法，因为迄今为止收集的数据尚不具备足够的诊断性：许多不同的采样算法都可能产生本章所讨论的那些定性实证效应。我们需要发现更具诊断性的效应。初步工作已表明，因果学习中的顺序效应可以区分不同类型的粒子滤波器（Abbott & Griffiths, 2011），而反应之间的依赖关系则可以区分不同的马尔可夫链蒙特卡洛（MCMC）算法（Castillo, León Villagrá, Chater, & Sanborn, 2021；Zhu, Sanborn, & Chater, 2018）。未来的研究应在任务内部和任务之间对更广泛的算法进行比较。

第二个挑战是将采样算法的输出与标准的行为测量指标（如判断、决策和反应时）定量地联系起来。尽管学界在如何将样本映射到决策、估计和反应方面已有广泛共识（Hamrick, Smith, Griffiths, & Vul, 2015；Vul et al., 2014；Zhu, Sundh, Chater, & Sanborn, 2023），但关于哪些变量被采样、样本如何在试次之间传递和演化，仍有许多问题需要厘清。应对这些挑战的努力是值得的：理性过程模型有望将贝叶斯模型的强大普适性与过程模型的描述准确性结合起来，从而对人类行为提供更深入的解释。

最后，机器学习领域的最新进展为定义能够近似贝叶斯推理的新模型提供了新机遇。本章主要聚焦于蒙特卡洛方法，但近期研究表明，基于优化的方法（包括基于人工神经网络的方法）可用于大规模概率推理。我们在第12章中讨论了这项工作所带来的一些可能性，并认为这是一条通向令人兴奋的新型理性过程模型的路径。

11.9 结论

用于近似贝叶斯推理的算法不仅在使用概率模型时有用，而且在思考人类面对归纳问题时可能采用的认知过程时也同样具有启发意义。计算机科学家和统计学家用来近似贝叶斯推理的许多算法都具有自然的心理学解释。探索这些模型提供了一种连接计算层面与算法层面分析的途径，使我们能够对人类心智和大脑如何应对概率推理的计算挑战提出假设。第12章将进一步探讨人工神经网络方面的最新研究，这些研究为连接这两个分析层面提供了更多思路。

12 贝叶斯模型和神经网络

人工神经网络长期以来一直被用作人类认知的模型（McClelland & Rumelhart, 1986），近年来又重新兴起，成为机器学习领域的主流方法（LeCun, Bengio, & Hinton, 2015）。鉴于其历史渊源和当前的流行程度，理解神经网络与认知的概率模型之间的关系，对于将这一研究置于恰当的理论背景之中，以及构建一种融合这两种理论传统的、对人类认知的理解，都具有重要意义。

建立贝叶斯推理与神经网络之间联系的路径有两条：一是将神经网络视为执行贝叶斯推理的系统；二是将神经网络本身看作另一种可对其应用贝叶斯推理的概率模型。每条路径都提供了独特的洞见，有助于我们理解人类认知：帮助我们设想人类大脑如何近似实现贝叶斯推理，以及人类学习如何在没有显式进行贝叶斯推理的情况下，仍能受到类似于先验分布的机制引导。

如果我们遵循第一条路径，那么将认知的贝叶斯模型与神经网络整合的方式，就是将它们视为处于不同分析层次：贝叶斯模型对应马尔（Marr, 1982）所提出的计算层面，而神经网络则对应算法层面。因此，神经网络可以补充——甚至可能实现——近似贝叶斯推理的算法，例如第6章和第11章所讨论的蒙特卡洛方法和变分方法，并为第7章中提到的人类行为与理性行为之间的系统性偏差提供假设来源。

如果我们遵循第二条路径，即构建有时被称为“贝叶斯神经网络”的模型（例如 MacKay, 1995），那么贝叶斯推理中用于理解人类认知的那些核心概念（如体现特定归纳偏好的先验）便被用来理解和约束神经网络。通过这种方式，我们有机会探索如何构建那些所体现的归纳偏好与人类学习者更加一致的神经网络。

本章的目标是勾勒这两条路径，概述沿途的一些关键思想作为路标。关于这些主题的文献极为丰富，尤其是在过去几年中涌现出大量成果。我们并不试图提供全面综述，而是聚焦于那些在理解人类认知的背景下、有助于连接这两种理论视角的概念性联系。同时，我们也会提供一些资源指引，便于读者更深入地探索相关文献。

12.1 什么是神经网络？

人工神经网络有多种类型，它们的共同点在于：由一组简单的计算单元组成，这些单元通过带权重的连接相互作用。这些形式化模型在不同程度上都受到大脑的启发——大脑是由神经元通过突触连接相互作用组成的系统。某些人工神经网络被特别设计为概率模型。例如，玻尔兹曼机（Boltzmann machine）可被解释为一种无向图模型（参见第4章）。

为简化起见，本章主要聚焦于多层感知机（multilayer perceptron）（关于此类及其他神经网络架构的更详细论述，参见 McClelland & Rumelhart, 1986；Goodfellow, Bengio, & Courville, 2016）。多层感知机是一种前馈神经网络，其中计算单元（“节点”）被组织成若干层，信息通过带权重的连接从前一层流向后一层。网络中某一层第 i 个节点的激活值 yi由其输入和一个激活函数共同决定。该输入是前一层所有节点激活值的加权和，权重即为对应连接的强度：

激活函数将输入转换为节点的激活值。这种转换是非线性的，其灵感来源于生物神经元积累输入直至超过阈值然后“放电”的方式。这种非线性也具有实用目的：如果没有它，多层神经网络就可以被表达为单一的线性函数。激活函数的一个经典选择是 Sigmoid 函数。

但当代神经网络的应用使用其他激活函数，这些函数能更好地支持多层神经网络的学习（例如，修正线性单元；Nair & Hinton, 2010）。

学习通常通过随机梯度下降法来完成。网络中的每个输出节点都有一个它应当产生的目标值。我们可以定义一个损失函数 L(W)，该函数以权重 W为变量，刻画输出与目标值之间的差异。一个标准的损失函数是平方误差损失，对于单个观测值，我们可以将其写为：

梯度下降算法通过计算损失函数的梯度（即损失函数对权重的导数），然后沿使损失减小的方向更新权重，从而找到能够降低该损失的权重。

如果我们对该损失函数关于权重 wji求导，可得：

在多层感知机中，我们有许多层节点和权重。网络接收输入 x ，产生输出 y ，中间层 z 被称为隐藏层，因为它们不对应于数据集中被观测到的变量。随机梯度下降可用于更新网络中的所有权重，利用链式法则计算最后一个输出相对于每个权重的导数。该导数包含反映每个节点对总损失贡献的项，可以解释为将损失反向传播回整个网络，因此该算法被称为反向传播（Rumelhart 等, 1986a）。当代用于训练神经网络的软件会自动计算所需的导数，使得定义和训练具有任意复杂架构的神经网络变得简单易行（例如，Abadi 等, 2015；Paszke 等, 2019）。

12.2 贝叶斯推理通过神经网络实现
我们将首先探讨如何利用神经网络执行贝叶斯推理。我们的出发点是一个经典的等价性观察：一个简单的神经网络与一个简单的贝叶斯模型在功能上是等价的。接着，我们将考察其他近似方法——例如第6章所讨论的蒙特卡洛方法和变分方法——如何在神经网络中实现。

12.2.1 一个执行贝叶斯推理的简单神经网络

这个简单例子说明了两种起点截然不同的模型最终可能在形式上是等价的，也表明神经网络可以直接实现贝叶斯推理。这两种方法之间一个有趣的区别在于它们对问题的表述方式不同。在贝叶斯方法中，我们从一个生成模型出发，该模型规定了类别如何生成特征，然后利用贝叶斯定理从特征反推类别标签。而神经网络则从逆问题出发，直接学习一个从特征映射到类别标签的函数。这被称为判别模型（discriminative model）。这两种方法对数据性质作出了非常不同的假设：生成方法显式地对特征的分布进行建模，而判别方法仅对类别标签的分布进行建模。这些不同的假设会影响对观测数据的解释方式，尤其是如何处理缺失数据（Hsu & Griffiths, 2009）。然而，像朴素贝叶斯与单层神经网络（也称为逻辑回归）这样成对出现的生成–判别模型表明，这两种视角之间存在巨大的融合潜力（关于这一点的更多讨论，参见 Efron, 1975；Ng & Jordan, 2001）。

12.2.2 重要性采样的神经网络实现

神经网络的结构也可用于实现贝叶斯推理的近似算法。在本节中，我们通过展示如何在一个简单的神经网络中实现重要性采样（这是第6章介绍的蒙特卡洛算法之一）来说明这一点（Shi & Griffiths, 2009）。

这就是第6章所讨论的似然加权（likelihood weighting）算法，其中我们用来自先验分布的样本、并以似然度作为权重，来近似后验分布。

12.2.3 学习执行贝叶斯推理

在认知科学中，推断网络另一个重要的应用是作为模型的组成部分，在那些推断本身计算成本过高而无法直接执行的复杂领域中实现贝叶斯推断。一个著名的例子是第18章所讨论的概率编程方法。

12.3 用于神经网络的贝叶斯推理

建立神经网络与贝叶斯方法之间对应关系的第二条路径，是将神经网络视为概率模型，并使用贝叶斯方法来估计这些模型的参数。由于神经网络通常规模庞大且结构复杂，在这种设定下执行贝叶斯推理可能颇具挑战性。然而，一些用于训练神经网络的算法本身已具备贝叶斯解释。在本节中，我们首先概述神经网络的贝叶斯视角，然后讨论这如何与神经网络学习算法相关联，最终突出其与分层贝叶斯推理的一个惊人联系。

12.3.1 贝叶斯神经网络

实际上，计算神经网络权重上的后验分布可能具有极高的计算成本，因为神经网络通常包含大量权重，并且我们无法依赖共轭先验或其他使贝叶斯推断变得可处理的技巧。然而，存在一个有趣的特例：当神经网络规模增大时反而会带来益处——Neal (1993) 证明，在隐单元数量趋于无穷大的极限情况下，贝叶斯多层感知机将变为一个具有特定核函数的高斯过程（关于高斯过程的更详细讨论，参见第9章）。这种神经网络与非参数贝叶斯统计之间的深刻联系，使得我们可以使用受神经网络启发的模型，同时保留概率模型所具有的理想特性，例如能够表达预测中的不同程度的不确定性。

12.3.2 隐式先验与学习算法

尽管对神经网络进行完整的贝叶斯推断通常是难以处理的，但寻找参数 θ 的最大后验概率（MAP）估计值的近似方法则相对直接。事实上，已有的神经网络训练算法已被证明在特定先验分布下对应于 MAP 推断。

考虑第 12.3.1 节中提到的关于神经网络权重的高斯先验。利用这一先验，我们可以重新审视我们曾用来介绍梯度下降算法的那个简单单层网络。在这种情况下，网络的参数就是权重矩阵 W。为了执行贝叶斯推断，我们需要定义似然函数 p(d|W) 和先验分布 p(W)。如果我们关注的是一个包含一组目标输出 ti 的单一观测，则我们的似然函数为：

等式右侧的第二项只是梯度下降的标准权重更新项。该算法的贝叶斯版本引入了第一项，该项在每次权重更新时都将 wji向零收缩。

这种在每次权重更新时缩小 wji的思想，在神经网络研究社区中被独立发展出来，并被称为“权重衰减”（weight decay）（Hanson & Pratt, 1988）。它有助于防止训练过程中权重变得过大，并且隐含地具有与假设这些权重服从高斯先验相同的效果。权重衰减易于实现，并且在与梯度下降收敛到损失局部最小值相同的条件下，能够收敛到后验分布的一个局部最大值。

选择像权重衰减这样的正则化器，是建立神经网络模型时必须做出的众多选择之一——我们还必须决定神经网络架构（例如层数、隐单元数量以及使用何种激活函数）、学习算法的超参数（例如学习率及其调整方案），以及初始化模型参数的方案。令人惊讶的是，我们可以证明，其中许多选择都可以被解释为隐式地定义了不同的先验。其中一个例子是用于优化神经网络模型参数的梯度下降步数。可以证明，在某些特殊情况下，提前在第 t步停止优化，等价于完全优化一个正则化损失函数，其中正则化惩罚项按 1/t缩放（Santos, 1996; Ali, Kolter, & Tibshirani, 2019）；换句话说，随着梯度下降迭代次数的增加，正则化惩罚项会逐渐减小。正如权重衰减一样，这里的正则化器也可以被视为对神经网络权重施加了一个隐式的高斯先验，其方差随训练迭代次数 t而缩放。

目前用于训练深度神经网络的当代算法也被认为与贝叶斯推断有关联。例如，dropout 算法（Srivastava, Hinton, Krizhevsky, Sutskever, & Salakhutdinov, 2014），即在每次权重更新时忽略一部分权重，已被联系到对参数 θ存在某种分布的设想，并且在某些情况下，该分布可被证明与贝叶斯后验分布一致（Gal & Ghahramani, 2016）。甚至随机梯度下降算法本身也被描述为执行近似贝叶斯推断（Mandt, Hoffman, & Blei, 2017）。

12.3.3 元学习与分层贝叶斯

第12.3.2节介绍了“隐式先验”（implicit priors）的概念，即某些算法选择（例如正则化器的形式或早停的迭代步数）会隐含地引入先验。这些先验表达了相对简单的偏好，例如偏好权重接近零或接近其初始状态的模型。然而，在某些情境下，我们希望模型本身的先验分布能够依赖于数据。元学习（meta-learning）就是这样一个典型情境：学习者面对的并非单一任务（例如学习某个特定概念），而是多个具有相似特征的任务（Schmidhuber, 1987；Thrun & Pratt, 2012）。在这种设定下，理想的学习者不仅利用这些任务之间的共性来更好地完成每个单独任务，还能更高效、更快速地解决未来的任务，从而真正实现“学会学习”（learning to learn）。

通过这种方式，利用元学习来估计先验参数是分层贝叶斯（hierarchical Bayes）的一个实例（参见第8章）。虽然贝叶斯推断表明学习者应如何将数据与假设的先验分布相结合，但分层贝叶斯模型则进一步学习该先验分布本身。这一思想在认知科学的贝叶斯模型中被广泛应用，贯穿本书所讨论的诸多例子。例如，分层贝叶斯可用于学习词语倾向于标记的对象属性（如形状），同时学习单个词语的意义（Kemp, Perfors, & Tenenbaum, 2007），或在学习因果关系的同时识别不同类型的因果关系（Mansinghka, Kemp, Tenenbaum, & Griffiths, 2006）。

分层贝叶斯模型在认知科学中已被广泛使用，但其高昂的计算成本使得它们难以应用于特定类别之外的模型（例如，在共轭情形下；参见第3章）。因此，建立分层贝叶斯与元学习之间的联系——后者可以高效地实现于神经网络等具有连续参数化的广泛模型——有可能拓展贝叶斯建模的适用范围。例如，McCoy, Grant, Smolensky, Griffiths, and Linzen (2020) 证明，本章所述的元学习算法可用于创建具有隐式先验分布的神经网络，从而易于从简化的语言类型学中学习语言；这可被视为朝向实现支持语言学习的“通用语法”的神经网络实例化迈出的一步（参见图12.3）。

12.4 未来方向

深度学习的研究仍在快速发展，关于摊销推断（amortized inference）、贝叶斯神经网络和元学习（meta-learning）的许多新进展尚未被认知科学充分吸收。所有这些主题都为发展认知的概率模型、以及理解人类心智与大脑如何应对贝叶斯推理所带来的计算挑战，提供了富有潜力的创新土壤。

新型神经网络方法的发展也为我们拓展模型所能捕捉的推理类型设定了新的边界。基于记忆的元学习（memory-based meta-learning）是一种近期提出的方法，它直接从数据中学习一种用于顺序更新神经网络状态的算法。采用这种方法，经过元学习训练的智能体能够解决传统上依赖结构化概率模型处理的问题，包括贝叶斯推理（Mikulik 等, 2020）、基于模型的强化学习（Wang 等, 2016）以及因果学习（Dasgupta 等, 2019）。这些模型是完全摊销的，因此在运行时极为高效，并且能很好地适应环境中那些难以用显式结构化模型表达的结构。然而，这些模型也继承了神经网络的一般性问题——它们需要大量数据进行学习，且泛化能力可能较差。评估这些模型的能力与局限是未来研究的重要课题（关于该方向的初步探索，参见 Kumar, Dasgupta, Cohen, Daw, & Griffiths, 2021）。

除了“用神经网络执行贝叶斯推理”和“对神经网络进行贝叶斯推理”之外，另一个富有成效的研究方向是将贝叶斯推理本身作为神经网络的模型。随着深度学习模型日益复杂，理解这些模型所隐含的假设变得越来越困难。我们在第12.3节中对神经网络归纳偏好的分析，依赖于对模型结构和损失函数形式的简化假设——即便对于仅含一个隐藏层的简单神经网络，其分析也已相当复杂。这引发了一个值得探讨的可能性：人工神经网络本身是否已足够复杂，以至于我们可以为其构建认知模型，从而帮助我们理解它们？Li、Grant 和 Griffiths（2021）就从这一视角出发，使用一个先前用于研究人类函数学习中归纳偏好的贝叶斯模型（Wilson, Dann, Lucas, & Xing, 2015），来解释并预测神经网络模型的归纳偏好。

12.5 结论

我们认为，概率模型与神经网络并非理解人类认知的相互竞争框架，而是提供了互补的洞见，可用于对心智进行“逆向工程”。这两种方法处于不同的分析层次，各有优势与局限：概率模型提供了一套强大的工具，能够以抽象方式刻画人类的归纳偏好，尤其适用于那些归纳基础能以结构化表征简洁表达的情形；而神经网络则提供了一个灵活的框架，用于理解如何从数据中学习对贝叶斯推理的高效近似，常常使我们能够处理超出当前概率模型能力范围的大规模问题。结合这两种方法，我们便拥有了一个工具箱，可用于构建能够回应广泛人类认知问题的模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.