Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models
开放世界认知建模为按需生成概率模型
https://arxiv.org/pdf/2507.12547
摘要
当面对新奇情境时,人们能够从广泛的背景知识中整合相关因素,并将其用于推理和预测。是什么使我们能够提取全局相关的信息并进行连贯的推理?本文探讨了这样一种假设:人们通过结合分布式表征与符号表征,构建针对新情境而量身定制的心理模型。我们提出了这一想法的计算实现方式——“模型合成架构”(Model Synthesis Architecture, MSA),利用语言模型实现基于全局相关性的信息检索与模型合成,并使用概率程序来构建特定情境下连贯的世界模型。我们在一个新颖的推理数据集上评估了MSA对人类判断的模拟能力。该数据集围绕一个名为“模型奥运会”(Model Olympics)的体育情境领域构建,旨在测试模型是否具备类人的开放性推理能力,具体包括:(i)对语言描述的新型因果结构进行判断;(ii)调用大量背景知识;以及(iii)在引入任意新变量的观察条件下同时完成上述任务。实验结果表明,与仅使用语言模型的基线方法相比,我们的MSA方法在语言模型直接生成和思维链(chain-of-thought)生成两种模式下均能更好地拟合人类判断。这些结果表明,MSA可以被有效实现,从而模拟人类在全局相关变量基础上进行局部连贯推理的能力,为理解和复制人类在开放领域中的推理过程提供了一条可行路径。
关键词:心理模型;概率性思维语言;语言模型;因果推理;框架问题
引言
认知科学中一个有影响力的观点认为,人们通过心理模型(mental models)进行推理和规划,即使用能够反映世界某些方面的结构化内部表征(Craik, 1943;Johnson-Laird, 1980;Gentner & Gentner, 1983)。按照这种观点,人们依靠结构化的心理模型来维持对当前世界状态的一致信念,将新信息整合进已有信念,并评估各种假设或可能未来情境的合理性。
认知科学中的贝叶斯建模(Griffiths et al., 2008;Tenenbaum et al., 2011)为这一观点的某种形式提供了显著的实证支持,表明人类在各种任务中的判断可以通过因果性、概率性模型中的推断与决策得到良好建模。这类模型在设计上是连贯的——它们表示相关因素之间的依赖关系,允许整合新的观察信息,并做出一致的预测。此类模型已成功再现了人类在多个领域中的判断,包括物理预测(Battaglia et al., 2013;Hamrick et al., 2015)、因果推理(Gerstenberg et al., 2021;Beller & Gerstenberg, 2025)、因果学习(Gopnik et al., 2004)、推断他人的信念(Baker et al., 2017)、欲望(Jara-Ettinger et al., 2016)、目标与计划(Zhi-Xuan et al., 2020;Baker et al., 2009),以及交际意图(Frank & Goodman, 2012)。它们也被成功应用于在稀疏数据条件下模拟人类学习,例如视频游戏(Tsividis et al., 2021)、词语学习(Xu & Tenenbaum, 2007)或简单视觉概念(Lake et al., 2015)等领域。
尽管这些模型在上述各个情境中都能有效预测人类的判断和学习行为,但它们仍存在重要局限:每个模型仅在其被设计的有限范围内运行。任何给定模型只能对其所表示的变量进行推断,而无法处理那些在初始模型设定中未包含的新因素。相比之下,人们经常需要对新颖问题进行推理——例如异常交通状况的原因和持续时间、午餐时朋友或同事的情绪状态、当球队明星球员缺阵时我们支持的球队赢得篮球比赛的可能性——这些问题涉及我们对世界的大量多样化知识(如我们对天气、节假日、驾驶员、文化规范、餐费价格、运动员以及篮球规则等的信念,仅举几例),而这些知识中的任何一项都可能不在任何一个特定心理模型中。迄今为止,贝叶斯建模尚未阐明此类建模方法如何扩展,以解释人类在一般情境下推理所表现出的同时兼具灵活性与一致性的能力。
那么,人们是如何在特定情境中以局部连贯的方式进行推理,同时又能从其背景知识和信念中广泛调用潜在相关的全局信息的呢?本文中,我们探讨这样一个假设:人类心智实现了“模型合成架构”(Model Synthesis Architectures, MSAs),即一种能够根据任务需求即时构建小型、临时心理模型的架构(Brooke-Wilson, 2023)。通过在小型模型内进行推理,MSA可以在其明确表示的变量上实现局部连贯性,而按需合成任意模型的能力则使该架构能够在开放性环境中进行推理和规划,因为在这些环境中,相关因素并非预先固定的。
MSA通过将建模人类开放世界推理的问题分解为两个子问题来应对这一挑战:(1)构建或“合成”临时模型,该模型必须包含在特定情境下相关的变量;(2)在模型内部进行推理,这可以通过认知科学长期研究的一般性信念更新与决策算法来实现。本文在自然语言输入下对因果系统进行推理的情境中探讨MSA假设。这是一个常见且自然的情境,本质上属于开放世界问题,因为可能相关的变量和依赖关系种类没有天然的边界。
我们使用概率编程语言(Probabilistic Programming Languages, PPLs)(N. Goodman et al., 2012;Bingham et al., 2019;Carpenter et al., 2017;Cusumano-Towner et al., 2019)来表达单个模型作为概率程序,并采用一种神经引导的程序合成方法——由对语言模型(LM)的结构化调用构成——来构建相关的心理模型,从而实现了一个具体的MSA实例。这是MSA的一种具体实现方式。以这种方式实现的MSA具有理想的通用性:由于其前端使用语言模型,因此能够处理任意自然语言输入;同时由于其采用通用目的的PPL建模语言,因此能够表达任意的概率模型。这些选择对应于关于人类心智如何解决这两个子问题的两个认知假设:第一(i),将相关背景知识提取并组织成心理模型的过程,依赖于大规模的统计表征,这些表征关联了问题的各种特征,尤其是语言特征,并依赖于一种组合性的、类似代码的“思维语言”(Language of Thought),正如语言到代码的语言模型流水线所体现的那样;第二(ii),针对新问题的连贯推理与决策,有时是通过在该语言所表达的心理模型上运行的原则性、概率性算法来实现的。
从贝叶斯建模的角度来看,结合上述两种方法的目标是构建一个系统,像人类认知一样,既能在开放世界环境中运行,又能保持概率模型原生的连贯推理能力。从基于语言模型(LM)建模的角度来看,目标则是构建一个具备语言模型灵活性的系统——这一特性使LM本身成为一种引人注目的认知架构(Binz et al., 2024;Carvalho & Lampinen, 2025)——同时解决其内部类似“世界模型”的表征脆弱性问题(例如Vafa et al., 2024),尤其是在支持那些显著超出模型训练分布范围的问题上的稳健且连贯的推理方面(McCoy et al., 2023)。
我们通过实证研究评估了这种MSA的实现方式,并将其与人类的临时推理以及纯语言模型(LM)和纯概率编程语言(PPL)基线方法进行比较,所使用的任务领域是一组旨在测试泛化能力和推理连贯性的自然语言推理任务。我们的“模型奥运会”(Model Olympics)领域包含一系列关于体育赛事的自然语言片段,这些片段具有不同的因果结构、未见过的变量,以及由普通人类参与者提供的任意性考量因素。该领域自然地融合了直觉性因果推理、不确定性以及多样化的潜在变量,在已有认知建模研究(Gerstenberg & Goodman, 2012)的基础上进行了扩展和推广,同时为评估灵活的认知建模架构提供了一个结构化但开放式的环境。在面对一个新的体育情境之前,我们无法预先知道哪些因素——如伤病、天气、团队协作、新战术或装备,或其他无限可能的相关变量——实际上将是相关的。这种开放世界的情境超出了传统静态贝叶斯模型所能处理的范围。
我们在该领域设计了三项人类参与的实验,后续实验逐步要求更高的泛化能力,涉及更新颖的语言表达、依赖关系和变量,同时需要调用更遥远的背景知识来完成推理。实验1要求人们针对三种新颖程度不同的运动项目(拔河、皮划艇竞速和冬季两项)进行推理,提供详细的叙述片段,参与者必须整合这些信息,对运动员(例如他们的力量或射击准确性)做出推断,并预测即将发生的结果(例如谁会赢以及赢多少)。实验2要求人们从信息更少的叙述片段中做出相同的推断和预测,这些片段仅指出了相关变量,但要求人们从自己的背景知识中提取变量之间的因果关系。实验3则在每个叙述片段中引入新的变量和依赖关系,这些新内容必须被整合进推理过程中。这些新增内容是以自然语言形式呈现的“观察信息”,来源于未经训练的普通人类被试(他们被要求提供“会改变他们对未来比赛预测”的新颖考量因素)。因此,实验3直接测试了在明确的开放世界情境下的推理能力。
在所有三项实验中,我们发现人类的推理行为能够被我们的模型合成架构(MSA)很好地捕捉,该架构对人类判断的拟合程度优于仅使用语言模型的基线方法以及各种模型消融版本。这证明了一个概念:神经语言建模与结构化概率建模可以相互结合,从而解释人类在开放世界情境下既能调用全局相关信息、又能进行局部连贯推理的能力。
模型合成架构
我们考虑一个通用问题:针对任意的推理或预测任务 τ,推断出答案 A。在理想化的贝叶斯推理情境中(图1,顶部),进行此类推理的过程涉及将任务 τ 中的具体信息与推理者已有的全部先验背景知识 K 相结合,通过条件化(conditioning)来生成答案:
计算这一过程通常代价过高,因为在一般情况下概率推断是难以处理的(intractable),而且也是低效的,因为在任何特定情况下,推理者实际所知的内容中很可能只有一小部分与当前问题相关。因此,我们提出,推理者并非计算这种完整的条件概率,而是仅“调集”其背景知识中与当前问题相关的一个子集(K′),使得:
特别是,为了进行连贯的推断,我们提出,推理者会利用这一缩减后的背景知识子集,构建一个针对当前情境的心理模型(Mₐdₕₒc),并使用该模型进行概率推断(图1,中),假设:
我们将任何实现这一总体认知假设的系统称为“模型合成架构”(Model Synthesis Architecture, MSA),因为它将对任意问题的推理分解为两个不同的计算子问题:(1)一个依赖于问题的、临时性的模型合成步骤,用于构建特定情境的心理模型 Mₐdₕₒc;然后(2)一个基于该构建模型进行贝叶斯推理的步骤,以回答在该模型条件下的问题,即计算 P(A | Mₐdₕₒc)。
这两个子问题的形式本质有所不同。借鉴资源合理性(resource-rational)框架的观点(Lieder & Griffiths, 2020),我们提出,推理者将临时模型的合成视为一个优化问题,选择那些他们认为对问题推理有用的表征:
基于一组从k个采样模型中选出的模型,通过各种模型评估函数Φ(例如,在模型推理的计算成本与针对一组查询的预期准确性之间进行权衡)来进行选择。
与模型合成不同,使用已合成模型进行推理和规划可能表现为优化、推断或演绎,具体形式取决于问题本身和所合成的模型。本文我们聚焦于概率推断,其中模型表示的是针对当前问题的相关变量及其依赖关系的结构化先验或认知方式(参见 Gerstenberg & Tenenbaum, 2017;N. D. Goodman et al., 2014)。
在本文中,我们考虑τ的一个子集,即由三元组(B, O, Q)定义的自然语言概率推理问题空间。其中,B 是关于当前情境的一组(可能不完整且未充分明确的)背景变量描述 b₁, ..., bₙ(例如,某人试图预测即将进行的锦标赛对阵结果时,可能会提到他们认为应予考虑的因素,如伤病情况或训练水平);O 是一组观察值 o₁, ..., oₙ,提供与这些变量相关的证据(例如,关于哪些队伍在此前比赛中获胜或失利的观察);Q 是一组问题 q₁, ..., qₙ,指定了在给定证据下需要回答的具体查询(例如,关于哪些队伍将在下一场比赛中获胜的具体预测问题)。
表示与合成临时模型
一般的模型合成架构(MSA)假设将推理过程分解为两个部分:模型合成,以及在模型内部进行推理。在本节中,我们描述一种具体的MSA实现方式,其中临时模型被表示为任务特定的概率程序。每个概率程序将模型表示为一个三元组 Mad-hoc = (ΠB, ΠO, ΠQ),其中:
ΠB 是一组随机函数定义,用于形式化关于相关背景变量的因果先验,具体通过定义这些变量的分布形式及其因果依赖关系来实现;
ΠO 是一组针对已定义变量的观测约束,这些约束在先验基础上对信念进行条件化;
ΠQ 是一组关于已定义变量的查询表达式,用于指定在条件化后的概率模型下进行贝叶斯推断的目标。
我们的具体实现将模型合成视为由语言模型(LM)引导的概率程序合成过程,利用语言模型来参数化一个依赖于输入任务的程序搜索过程,并参数化一组模型评估函数 Φ。该实现最终通过在概率编程语言上定义的自动贝叶斯推断程序,计算在所合成模型下的查询答案,即 P(A | Mad-hoc)。
我们总体的目标是为任务合成有用的模型(见公式4)。我们提出一种实现方法,通过一个分阶段、逐步推进的合成过程来近似实现对模型的优化,该过程交替进行部分模型的生成与评估。将生成与评估交错进行,使我们能够在后续的生成阶段集中于那些在当前Φ的各组成部分下评估得分较高的输出,从而提高效率。该实现通过以下步骤依次构建 Mad-hoc:
• 解析(Parse):(图2、3,a)我们首先将自然语言输入(τ = B, O, Q)解析为一组候选的概率程序条件表达式和查询表达式(ΠO, ΠQ),这些表达式将传递给后续的模型合成阶段。
具体而言,我们使用一个经过提示训练的语言模型(LM),该模型被用于将输入自然语言观察中的每句话解析为一个对应的正式表达式(πO),其目的是在概率模型中对潜在变量施加观测约束;同时将问题解析为查询表达式(πQ),以定义该模型中推理的目标变量。这一阶段借鉴了先前的认知建模研究,这些研究表明人们通过从句子翻译到符号化心理模型表征的方式,利用学习到的统计分布来理解语言(Wong et al., 2023)。与以往工作不同的是,本阶段的解析发生在我们尚未构建出完整心理模型之前。为此,该阶段将自然语言解析为包含函数和变量的占位符表达式,这些函数和变量将在后续的模型合成阶段中才被明确定义。
我们从一个以输入任务为条件,并用来自其他任务的示例解析及其对应概率模型进行提示的语言模型中采样出候选解析结果(详见附录中的提示细节):
这个最优解析结果(我们在全文中使用 * 符号来表示从候选集中根据效用函数 Φ 选出的最佳生成结果)随后被传递到下一阶段。
• 相关自然语言背景描述:
(图2、3,b)接下来,我们检索用于补充背景知识细节的候选内容(B⁺ = {b₁⁺, b₂⁺, ..., bₙ'⁺})。这些内容将与初始的(可能不完整)输入背景 B 结合,生成一个增强后的自然语言描述 B_aug = B ∪ B⁺,其目的是以明确的细节充分指定当前任务中推理所需的潜在相关变量。
我们使用一个经过提示的语言模型(LM),该模型被训练用于根据输入任务生成详细的背景描述,其中明确命名相关变量,并具体说明它们的功能形式以及与其他已命名变量之间的关系(例如,生成的内容可能包含类似以下句子:“运动员的划船速度在不同运动员之间差异很大,但更强壮的运动员往往划得更快”)(详见附录中的提示细节)。这一生成过程同时依赖于任务输入和最优解析结果:
补充材料(《模型合成架构:附加实现细节》)包含一个指向代码仓库的链接,其中提供了语言模型(LM)的提示细节、每个生成阶段的额外信息,以及生成的解析示例、自然语言背景知识、概念依赖图和模型片段示例。
自然语言推理实验
为了评估人类和模型在灵活的临时推理方面的能力,我们构建了一个自然语言推理问题的领域。围绕这一领域,我们设计了三个实验,要求人类和模型在推理过程中逐步调用越来越多的背景知识。实验1在最受限的条件下评估临时推理能力,其中几乎所有相关的因果关系都通过语言明确给出。实验2呈现更为模糊和未充分明确的情境,其中关键变量之间的关系必须从先验知识中提取。实验3引入了由其他未经训练的人类被试提出的新变量,推理者必须基于背景知识构建这些新变量与已有变量之间的因果关系。在每个实验中,一组8个问题用于检验人们在推断潜在变量和预测未来结果时推理的连贯程度。
此处我们更详细地描述实验领域及人类实验方法,随后介绍用于评估模型合成架构(MSA)实现及其基线模型的计算方法。
领域——“模型奥运会”情境片段
设想一位朋友邀请你去他们的大学,那里每年夏天都会举办一场非正式的划船比赛。他们邀请你参加,并向你介绍一些他们知道会参赛的朋友(例如:“Alice 高中时曾参加过赛艇队”,“今天早些时候,Billy 和 Alice 战胜了 Carmen 和 David”,“昨天 Elaine 和 Alice 战胜了 Carmen 和 David——尽管 Elaine 用的是比较旧的船桨。”)接着,你需要决定要招募谁加入你的队伍——谁更有可能获胜?当你听到这些信息时,你可能会不断对参赛者的体力或竞争心态做出推断(例如,你可能会想:“哇,Elaine 就算用旧船桨也能赢,也许她们特别努力”,或者“Carmen 和 David 输了两次,可能他们本身特别弱……”)。
虽然这个情境很简单,但它恰恰体现了本文所关注的那种日常的、临时性的推理——我们从关于新情境的不完整信息中即时地做出概率性推断。大多数涉及语言推理的真实世界情境本质上都是“开放世界”的,即可能相关的变量和依赖关系没有天然的边界。
我们的实验领域由一系列类似上述情境的自然语言片段组成,描述运动员参与体育比赛的情景。该领域受到先前研究中用于评估人类概率推理的“贝叶斯拔河”刺激材料的启发(N. D. Goodman et al., 2014)。为了契合本文的研究重点,我们对这些问题进行了扩展,以测试当人们需要逐步整合更多背景信息来形成判断时,其推理的连贯性。
为了评估人们在不同情境下的推理方式,我们设计了三个不同的背景子领域,每个子领域具有不同的因果结构,作为我们情境片段的基础。这三个子领域对应三种不同的体育赛事:拔河、皮划艇竞速和冬季两项。拔河子领域基本复现了以往研究中的设定,包含两个潜在变量(运动员的恒定力量和每场比赛中随时间变化的努力程度),这两个变量共同影响观察到的结果(例如谁赢得了某场拔河比赛)。皮划艇竞速子领域测试的是向一个新颖情境的泛化能力——这种情境不可能出现在大型语言模型(LLM)的训练数据中(与广泛发表的拔河问题不同),但其因果结构与拔河类似(同样是恒定的运动员力量和随时间变化的努力程度共同决定皮划艇比赛的观察结果)。冬季两项子领域则更为不同(包含恒定的运动员力量和随时间变化的射击准确性,适用于滑雪与射击结合的赛事),整体上对参与者来说也更具新颖性。这三项运动共享一个通用结构(一个恒定的和一个随时间变化的潜在变量共同影响表现),这使我们能够为三项运动构建结构平行的情境片段和推理问题。我们还将每项运动的因果结构形式化为一个“黄金标准”的手工构建概率模型,明确编码这些潜在变量与团队之间观察结果的因果依赖关系。这些手工模型为每项运动的推理提供了计算基线。
为了在这些情境内评估泛化能力,我们构建了一组16种基础锦标赛模式(tournament motifs)。每种模式通过改变参赛队伍和锦标赛中的观察结果,为参赛运动员提供不同类型的信息(例如:循环赛,选手在不同队伍中轮换;队友混淆情境,两名选手始终在同一支获胜或失败的队伍中;以及多个贝叶斯式的“解释消除”情境,其中一两名选手通常获胜或失败,但在某次比赛中出现意外的输赢,暗示存在另一个竞争性因素,如临时缺乏努力,导致了这次异常结果)。这16种模式基于原始拔河实验中的12种团队锦标赛证据模式,并额外增加了4种包含噪声或异常结果的模板,以深入探测概率推理能力。
我们通过为每项运动独立随机抽取6种锦标赛模式来生成实验用的情境片段数据集,共得到6×3 = 18个情境片段。生成过程中,我们为每个片段中的运动员随机分配性别中立的名字,以避免因名字而产生对运动员实力的先入之见。该生成程序可用于动态生成新的情境片段,并可扩展至新的运动项目和模式。
通过概率判断探查局部连贯性
为了探查局部连贯性,我们需要从人类被试处收集判断数据,以考察他们在特定情境下如何对相关变量进行推理。我们的核心假设预测,这些推断应与一个内部结构化、针对当前情境的心理模型保持一致,该模型涵盖所有相关变量。我们预期,被试关于哪些运动员更强或更弱、更努力或更懈怠的推断,会彼此一致,并与他们对未来比赛结果的预测保持连贯。同样地,如果被试认为其他变量(如伤病、能量饮料、失误)与观察到的结果相关,那么我们预期这些新变量会对其他判断产生一致的影响。
为此,我们设计了一种新的判断采集界面,旨在实现两个目标:(1)采集能够反映结构化不确定性的概率性判断;(2)在多个相关变量和预测之间采集判断,以检验其局部连贯性。
为了使参与者能够表达结构化的不确定性,我们设计了一个多采样判断界面,要求每位参与者对每个问题输入 k_click = 5 次判断,我们将这5次判断解释为每个查询 q_i 的一组样本 S_{q_i} = {â₁, â₂, ..., â₅}。该界面受到 Gerstenberg 等人(2018)研究的启发,使参与者能够表达他们在给定背景和证据条件下,对目标变量的边缘后验分布中的多种可能取值(即分布模式)。
此外,我们为全部16种锦标赛模式中的每一种都设计了对应的8个推理问题组成的题集,旨在探查相关推断之间的一致性和连贯性。这些问题始终包括:针对三名运动员的恒定潜在变量的3个问题,针对这三名运动员在特定比赛中随时间变化的潜在变量的3个问题,以及关于新比赛的2个预测问题。我们设计这些问题的依据是锦标赛模式以及每项运动所假设的因果结构,以揭示连贯且相互关联的推断。例如,在“队友混淆”情境中,我们会针对始终组队参赛的两名队友提问;在贝叶斯式的“解释消除”情境中,我们会针对出现意外胜负的比赛提问,以考察参与者如何解释这些反常结果。当我们为每项运动生成具体的情境片段时,也会生成相应的一组推理问题,并根据该运动的具体恒定变量和时变变量进行实例化(例如,在拔河或皮划艇情境中提问:“在0%表示完全不努力、100%表示全力以赴的百分制尺度上,你认为Val在第三场比赛中付出了多少努力?”;在冬季两项情境中则提问:“在0%表示完全不准、100%表示完美命中的百分制尺度上,你认为Val在第三轮射击中的准确率是多少?”)。我们提出这一组关于相关变量的问题(而非如 N. D. Goodman 等人(2014)那样每个情境只提一个推断问题),目的是检验人们是否基于每个情境下整体性的、潜在的因果表征来做出一致的判断。
人类实验
接下来,我们描述使用“模型奥运会”领域进行的三项实验序列(见图4)。所有实验的更多细节,包括情境片段的示例和实验界面的图像,可在补充材料中找到。
• 实验1(详细背景情境):测试当相关变量在特定情境中被明确描述时,人们对任意变量组合的临时推理能力。情境片段附带详细的语言背景描述(图4,左),这些描述基于为每项运动手工构建的“黄金标准”概率模型。这些背景信息明确说明了相关变量分布的函数形式(例如:“运动员的内在力量在整个锦标赛中保持不变,且在不同运动员之间差异较大,大多数运动员力量处于平均水平,少数明显较弱或较强”),以及变量之间的因果关系(例如:“力量和努力程度如何共同决定皮划艇比赛中运动员每场比赛的划行速度”),这些最终导致了观察到的比赛结果。共有 NE₁ = 78 名来自 Prolific 平台的参与者,每人随机评判每项运动中的两个情境片段。
• 实验2(背景信息不足的情境):测试当部分相关变量仅被简要提及或隐含在语言中,而大多数中间细节必须由参与者从自身背景知识中补充时,其临时推理能力。情境片段附带简短且未充分明确的背景描述(图4,中),这些描述仅指出每项运动手工模型中的恒定变量和时变潜在变量,但并未明确说明其分布的函数形式,也未说明这些变量如何相互作用以产生观察到的结果。此类情境在以往受控的计算因果推理模型(如 N. D. Goodman 等,2014)中通常未被考虑,但正是我们关注的重点,因为我们希望研究人们调用全局相关知识进行推理的能力。共有 NE₂ = 80 名来自 Prolific 的参与者评判了与实验1相同的片段批次,以便在实验间进行比较,探查人们是否在信息不完整的情况下仍能做出与详细描述情境相似的推断分布。
• 实验3(由参与者生成的新细节):通过引入超出我们原始领域范围的、不受控的新变量,测试人们在临时推理中灵活整合任意证据的能力。为此,我们在实验2的未充分明确的情境基础上,添加了由其他普通参与者生成的新细节(“赛事评论”,图4,右),这些评论来自未参与主实验的普通被试,他们被要求提出一些新的、相关的观察信息,这些信息会改变他们自己对某场未来比赛结果的预测(例如,使某一结果更可能或更不可能发生)。
这些评论引入了新的变量(如伤病、兴奋剂等),用于测试参与者在分布之外进行推理的能力,即扩展基础刺激材料进行推理(类似于 Collins 等人(2022)的实验范式)。这些由参与者生成的细节来自 NE₃,ₐ = 20 名普通人类被试,通过一个独立的采集任务收集。本实验共使用了跨两项运动(拔河和皮划艇竞速)的9个情境片段,其证据模式与实验1和实验2略有不同,这是由于我们的情境采样程序所致。在扩展后的情境片段的主判断任务中,NE₃,b = 20 名参与者对全部9个情境进行了评判。
计算实验
在全部三项实验中,我们从模型合成架构(MSA)及其对比模型中采集模拟判断,形式为在给定情境片段条件下,对整套问题的后验概率估计。
MSA 模型配置
我们使用 Llama-3.1-70B 作为基础语言模型(LM),用于所有解析、代码生成以及基于语言模型的评估环节;并使用 WebPPL(WebPPL 概率编程语言,n.d.)作为我们的概率编程语言。
我们模拟一个“参与者”的行为,假设他们在推理时会构建一个单一的、针对特定情境的临时概率程序,用以表示该情境片段中的相关变量。这一设定体现了“人们在推理时会采样一个单一心理模型或对当前情境的‘认知表征’”的假设。未来的研究可进一步探讨个体是否更应被理解为整合多个不同的概率模型来推理单一情境。
在管道中所有涉及语言模型生成的阶段,我们都向语言模型同时提供当前具体的情境片段,以及随机采样的背景示例——这些示例包含其他情境片段及其在管道各阶段对应的解析结果、依赖图和概率程序。对于每一个情境片段和每一位模拟“参与者”,这些示例包括来自本领域中另外两项运动的情境与模型(例如,在合成拔河模型时,语言模型会看到皮划艇和冬季两项的示例),以及另外两个展示 WebPPL 语法通用特征的示例(一个关于学生考试表现的情境,另一个关于同步跳水运动的情境,后者不在我们的实验领域内)。这种提示策略使我们能够评估:当提供密切类比的示例(如从皮划艇到拔河)时,模型的泛化能力是否优于提供更远距离输入(如更陌生的冬季两项结构)时的表现。更多实验细节(包括语言模型提示)见补充材料。
对于每一位模拟参与者和每一个情境片段,我们采用拒绝采样法(rejection sampling)生成后验估计,以获得无偏的概率估计。在实验1和实验2中,每个问题使用 k_samples = 1000 个样本;在实验3中,使用 k_samples = 500 个样本。在结果中,我们为每个情境片段模拟 N = 10 位参与者。由于拒绝采样耗时较长,我们的整体采样预算受到限制(在更复杂的实验3中尤为明显)。
替代模型与基线方法
我们将MSA的判断结果与几种替代模型的判断结果进行比较:
•黄金符号模型(Gold symbolic models):
针对实验1和实验2,我们使用为三项运动分别手工设计的“黄金标准”符号化模型来估计后验概率。这使我们能够评估:在扩展后的实验设置下,人类的判断是否与以往自然语言推理研究(N. D. Goodman 等,2014,2024)中的结果存在差异。该基线还可用于评估我们通过MSA合成的概率程序所生成的判断,与手工构建模型之间的差异。
为了与MSA实现进行直接比较,我们同样为每个情境片段模拟10位参与者,并为每位模拟参与者和每个情境片段使用 K = 1000 个样本(通过拒绝采样)估计后验概率。
•大语言模型(直接生成与思维链):
为了评估符号化模型合成的作用,我们使用基础语言模型(Llama-3.1-70B)实现了两种仅依赖语言模型的替代方案。我们评估了“直接生成”(direct)模式:即提示语言模型通过前馈生成方式直接回答每个情境片段中的所有问题;以及“思维链”(chain-of-thought, CoT)模式(Wei 等,2022)。我们认为CoT模式是对我们MSA方法的一种消融(ablation),因为它涉及在语言层面进行更多计算(类似于MSA中概率程序合成之前的各个管道阶段),但并未执行明确的符号化模型。
两种语言模型基线均被直接提示输入人类参与者所看到的实验说明和情境片段。对于这两种基线,我们采用相同的多响应范式模拟参与者:语言模型在条件于该情境片段此前所有回答的前提下,依次为8个问题中的每一个生成5个标量判断。我们以1.0的生成温度进行采样,以获得多样化的响应。较低的温度无法很好地拟合人类反应的分布,因为模型输出的变化不足。
比较概率性判断
我们使用两种不同的度量方式将人类的判断与所有模型的判断进行比较:
•相关性分析(R²):计算人类与模型之间的相关性,具体方法是将所有参与者在各个问题上的平均判断(将每位参与者针对每个查询的全部点击合并计算)与每个模型的平均判断(将该模型所有模拟参与者的样本合并计算)进行比较。对平均判断进行相关性分析,能够提供一个易于解释的总体图景,反映模型在多大程度上捕捉到了人类的判断。
•分布性度量(Wasserstein 距离):通过比较人类判断的完整边缘分布(基于多点击范式)与模型生成样本的完整分布,提供更精细的拟合评估(Ying, Collins 等,2025)。具体而言,我们采用 Wasserstein 距离(Wasserstein Distance, WD),也称为“推土机距离”(Earth-Mover’s Distance),来衡量模型与人类在推断变量上的概率分布相似性——模型判断与人类判断之间的 Wasserstein 距离越小,说明两个分布越相似。为了从人类判断中构建一个“近似人类后验分布”,我们将每个人的每次点击(共5次)视为一个在0到100之间(即每个问题的评分尺度)的样本。† 然后,我们将每个问题的取值范围划分为10个区间(bucket),对分布进行离散化处理。接着,针对每个情境片段中的每个问题,计算这些离散化分布之间的 WD。我们还通过取所有个体 WD 的平均值,计算总体的聚合 WD。此外,补充材料中也考虑了另一种分布性度量——总变差距离(Total Variation Distance)。
此外,我们还计算了人类参与者之间的半分比较(split-half comparison):将参与者随机分为两个大小相等的组,计算每组内参与者判断之间的相关性及分布距离,并通过1000次随机抽样进行自助法(bootstrap)估计,得到95%的置信区间。我们所有的分析都合并了参与者的判断,因此这种半分的人-人比较提供了在所采样参与者群体中可解释方差的“噪声上限”(noise ceiling),并为判断各模型在每项指标上的拟合质量提供了基准。
结果
我们通过相关性分析和分布性分析,评估了人类与模型在三个实验情境中的推理方式。我们将结果归纳为一系列关键发现。
关键发现1:人们的推理通常与在临时构建的概率模型中进行的贝叶斯推理一致。图6和图7(A-C)显示,在全部三项实验中,我们通过模型合成架构(MSA)生成的概率模型所做出的推断,与人类判断总体上具有较高的相关性。补充材料中包含了与图6类似的全部相关性分析的散点图,并进一步表明,这些拟合结果通常落在参与者半分比较(split-half human-human)基线的95%置信区间范围内(通过对参与者随机分组进行自助法抽样)。
这一结论在我们的分布性分析中也得到了验证。图7(D-F)显示,MSA不仅捕捉到了人类判断的平均值,还经常能够捕捉到预测的分布形态。在该指标下,与人类-人类半分基线的比较再次表明,MSA推断的分布与人类判断的相似程度(紫色),与人类参与者彼此之间的相似程度(蓝色)相当。为确保这一结果不是Wasserstein距离度量的特有现象,我们还使用了另一种分布相似性度量(总变差距离,见补充材料)重复分析,结果依然一致。
综合来看,这些结果表明:在各个实验情境中,人们的推理方式与在某个结构化相关变量集上进行的规范性贝叶斯推理是一致的——并且这些变量可以通过我们的方法自动提取。这一总体发现对先前研究具有若干启示。实验1的结果基本复现了以往研究(N. D. Goodman 等,2014)的结论,但进一步表明,相关的概率模型可以直接从自然语言输入中合成,而无需人工设计。因此,完整的MSA为我们提供了一个从自然语言输入到最终输出的、关于参与者心理过程的完整图景。实验2的结果表明,该方法在更自然的情境中具有泛化能力——即使人们未被告知变量之间明确的结构化依赖关系,其推理方式仍与合成的概率模型保持一致。实验3的结果则验证了该发现向开放性情境的泛化能力:在必须处理超出基础模型范围的新变量和新因果关系时,模型和参与者仍能保持一致的推理模式。这一发现尤为重要,因为它部分验证了心理模型假说的可扩展性——即心理模型必须能够与人们在开放世界中表现出的推理能力相兼容。综合来看,这些结果表明:在有限的相关变量子集上定义的临时概率模型,能够像以往固定的模型方法一样解释人类的判断,并且这些模型可以从自然语言输入中实证地恢复出来。
关键发现2:人们的推理与结构化概率模型中的推断更为相似,优于纯语言模型(LM)的替代方案,尤其是在泛化到任意新细节时表现更优。接下来,我们将人类的推断与各种替代模型进行比较,并对模型之间进行相互比较,以探究不同模型类别在概率判断上的结构相似性。图7(A-C)热图中可见的相关性区块显示,在许多情况下,人类与自身以及与符号化模型(MSA和手工构建的概率模型)之间的相关性高于与语言模型(LM)之间的相关性;而语言模型彼此之间的相关性则更高。这一发现与图7(D-F)的分布性度量结果一致,后者也表明,人类、MSA和手工模型的分布(蓝色、紫色和银色)通常比语言模型的分布(粉红色和橙色)更接近人类的实际分布。
深入分析发现,在皮划艇竞速子领域中,人类与符号化模型之间的相关性差异比在拔河子领域中更为显著(比较图7A和B中的“拔河”与“皮划艇”列)。这一点值得注意,因为皮划艇竞速子领域的因果结构被设计为与拔河高度相似,理论上应表现出类似行为。一个关键区别在于,皮划艇竞速的情境不可能出现在语言模型的训练数据所涵盖的任何已发表研究中。因此,纯语言模型在这一较不熟悉的情境中可能表现不佳,而使用显式的概率模型可能提升了泛化能力。相比之下,在冬季两项子领域中,符号化模型与语言模型在拟合人类判断方面的表现相当。这一现象值得进一步分析,一种可能的解释是参与者对该子领域普遍不熟悉——他们一致报告对该运动不了解。而语言模型和MSA(通过其语言模型组件)可能对该子领域更为熟悉,理解其变量之间的依赖关系,因此两者的行为更为相似。
在针对开放世界情境的实验3中,MSA的判断与人类判断的吻合程度明显优于纯语言模型(LM)的替代方案。这种差异在该情境下最为显著,这一现象从两个方面提供了启示。
首先,语言模型基线在分布逐渐偏离熟悉情境时,可能在拟合人类判断方面面临特殊困难。这一解释与Collins等人(2022)的研究发现一致:当推理情境越来越新颖时,大语言模型(LLM)与人类行为的偏离也随之增大。
其次,如前所述,这一实验情境对现有手工构建的认知符号模型构成了显著的先验挑战——这类模型通常无法在开放世界情境中运行,因为在引入新的观察后,新的变量和依赖关系会不断变得相关。事实上,我们之所以在实验3中没有设置手工构建的符号模型基线,正是因为原始的手工模型无法处理由人类参与者引入的新观察和相关变量。而MSA在此情境下仍能持续优于语言模型基线,表明即使在开放世界条件下,概率建模仍能更好地捕捉人类的判断。
总体而言,这些发现揭示了语言模型能力的一种不对称性:语言模型可能在以类人方式检索相关世界知识和因果依赖方面相对更强,但在将这些证据整合为一个局部连贯的世界模型方面,其能力相对较弱——而这正是人类所擅长的。
关键发现3:MSA能够将任意情境的相关信息检索并表示为结构化的概率模型。相关性分析和分布性分析均表明,所实现的MSA能够合成在定量上捕捉人类推断的模型。但这些临时构建的概率模型具体是什么样的?它们提取了哪些相关的背景知识?又是如何将语言形式的背景知识(无论是原始输入中的,还是通过我们的方法检索到的)表示为概率程序的?图5中的定性示例显示,由语言模型引导的合成方法通常能够合理地提取出变量和因果依赖关系的描述(例如,运动员的内在力量可能在不同运动员之间呈现多种模式;每场比赛的努力程度是一个连续参数,可能与运动员的原始力量相关);并且能够将原始输入(图5,实验1)和检索到的背景知识(图5,实验2、3)中的自然语言描述解析为相应的概率程序,将这些变量和依赖关系表示为相互关联的函数基本单元。
同时,对底层代码的手动检查也揭示了MSA在从自然语言到概率程序的转换过程中存在一些不完美的解析。这些问题从较轻微的错误(例如,检索到的附加自然语言B⁺指出获胜队伍取决于运动员划船的平均速度,但合成模型有时未使用“均值”来编码这一关系),到较为严重的遗漏(例如,在实验3中,合成模型通常未能正确理解模态时态逻辑,例如“肩部拉伤会影响后续比赛中的拉力”,直到我们允许合成过程访问一个模态逻辑函数库后,这一问题才得以改善)。
我们将在下文进一步讨论这些局限性以及未来工作的可能方向。
在本研究中,我们探讨了人类如何实现既具有全局相关性又保持局部连贯性的推理——即,人类的推理如何既能敏感地调用其背景知识中的各种相关信息,又能对这些信息进行连贯整合。在我们的实验中,我们发现模型合成架构(MSA)能够合成临时模型,不仅在首次拟合人类判断方面表现良好,而且比语言模型(LM)基线方法拟合得更好。这表明,MSA为捕捉人类推理背后的计算机制提供了一条有前景的路径,尤其是在开放世界情境中。
模型拟合的原因
为什么在这些情况下,人类判断与MSA的匹配度优于与LM基线的匹配度?一种可能的解释在于两类模型处理“连贯性”的方式不同。MSA生成的心理模型在设计上就是连贯的,而语言模型的内部表征则缺乏类似的连贯性约束。如果人类在多个变量上的判断倾向于更加内在一致,那么这种连贯性就会使MSA比LM更贴合人类行为。另一种可能是,MSA使用了显式的因果和概率表征,迫使模型更关注任务描述背后的深层结构特性,而非语言表面特征。如果人类的判断正是追踪这些深层因果属性,那么这就能解释为何MSA的匹配效果更好。这一解释与已有研究发现一致:语言模型对语言表面特征过于敏感,导致其推理缺乏稳健性(McCoy 等,2023;Valmeekam 等,2023;Mirzadeh 等,2024)。
确定上述哪种(或其它)解释更为合理,以及这一趋势是否在更多样化的领域中持续成立,是未来研究的优先方向。
应对意外证据
在我们的数据中,人们在将新证据与背景信念进行整合时,表现出接近理性的行为,这一点通过其与MSA的高拟合度得以体现。这包括以审慎的方式整合意外观察(例如,一名被认为速度较慢的选手意外战胜了一名被认为速度快的选手)。在语言模型与人类差异最大的情况下,初步分析表明,语言模型面临的一个关键挑战是对这些意外观察过于敏感。例如,通过定性观察我们发现,LM基线模型往往认为:一名速度快的选手仅因一次输给一名通常较慢的选手,就足以完全抵消甚至逆转对其相对速度的判断,即使其余证据的总体权重并不支持这一结论。相比之下,我们的MSA在这些情况下不会过度反应,这可能得益于其构建了包含先验和因果结构的显式模型,从而为整合相互冲突的观察提供了坚实基础。未来的研究应更深入地探讨这种整体性整合机制,尤其是在信息随时间逐步呈现(如自然情境中的推理任务)而非一次性全部给出(如本实验中的设置)的情况下。
开放世界推理
实验3的数据展示了不同模型类别在拟合人类数据方面的最大差异。该实验聚焦于开放世界情境下的泛化能力,条件依赖于由参与者提供的评论,这些评论引入了全新的考量因素。在该实验中的表现代表了一种特别有趣的泛化形式——即面对需要在基础因果结构中引入新变量和新依赖关系的观察,从而扩展模型的表达能力(相对于未引入评论时所合成的模型,即实验1和实验2中的模型)。如前所述,这种开放世界推理对经典认知贝叶斯模型构成了严峻挑战,因为它们无法处理新变量。尽管如此,我们的MSA在模拟人类对此类刺激的判断上显著优于语言模型,这表明依赖概率模型所使用的表征类型仍具有持续优势。特别是,MSA能够重组相关因果结构的符号化表征,可能支持了在高度新颖情境下的更强泛化能力。未来研究的一个重点是探索这种能力在基于语言模型的模型合成中何时会失效,并进一步研究其他类型的MSA是否能更好地拟合人类的认知能力。
人类判断的分布揭示了所有模型均未能捕捉到的结构特征
收集和分析分布性数据的一个优势在于,我们可以比传统的R²等指标更细致地分析人类与模型的判断差异。对这些数据的初步分析揭示了人类与两类模型之间的一些有趣差异,凸显了人类判断中仍待解释的丰富结构。例如,与人类参与者相比,语言模型(LM)的判断显得更加“集中”——其判断往往集中在某些特定结果周围,并且对意外观察反应过度——有时其判断方向甚至完全与人类相反。相比之下,MSA的判断方向通常更准确(表现为更高的R²值),但其输出的判断分布往往比人类判断更平滑、不确定性更高(见补充材料中的图16)。简而言之,人类的判断似乎既具有强烈的倾向性(表现出明显的峰值,类似于LM),又能更一致地将这些峰值落在贝叶斯后验分布的合理模式上(这由MSA在R²和Wasserstein距离上的优越表现所证实)。
由此引发的一个紧迫问题是:是否存在其他类型的模型能够更好地再现人类数据中的这些模式?这可能是一种更深层次的神经与符号方法的融合——既能复现语言模型那种尖锐的峰值判断,又能更准确地将这些峰值定位在正确的位置;或者是一种采用更强采样方法的MSA,使其样本更集中地落在后验分布的模式上。对人类判断中这些细粒度分布特征的建模,是未来研究的重要目标。
实验局限性
当前研究的一个局限在于人类数据相对噪声较大——无论是人类被试之间的半分相关性,还是模型与人类之间的相关性,其置信区间都较宽。我们还可以探索使人类变异更具可建模性的方法,例如将特定的心理模型(在MSA中)或响应模式(在LM中)与特定参与者匹配,从而捕捉个体参与者对情境的独特理解。
此外,我们MSA生成样本的方差也常常过低。例如,在实验1和实验2中,MSA的判断高度相关,而人类的判断则远非如此。同样,在某些条件下(如皮划艇领域),人类判断的方差通常高于MSA。这表明我们MSA所合成的模型缺乏多样性。后续研究应探索如何增加合成模型的多样性,例如通过增加生成模型的数量,或采用更有针对性的方法,如根据参与者对自己思维过程的自我报告来调节模型生成(以及语言模型的响应)。
另一个近期值得跟进的研究方向是探索更强的基线模型和更彻底的模型消融实验。根据经验,我们发现分阶段的模型合成流程效果最佳,但这需要系统性地验证,并与其他模型合成策略进行比较。同样,MSA的表现也应与最先进的推理模型及其衍生的认知模型(Binz 等,2024)进行比较。特别是领先的推理模型可能在这些任务上表现更好,如果将其用于我们MSA的内部模块,也可能合成出更优的概率模型。重要的是,当比较这些模型在“类人性”方面的表现时,需要评估这两种效应的综合结果。
模型合成的局限性
与语言模型类似,我们实现的MSA在泛化能力方面也面临重要局限。模型生成过程常常过度依赖提示中提供的示例模型,导致生成的模型多样性不足。例如,尽管我们的MSA通常能够将提示模型中的基本单元重新组合成适用于新运动的模型,但在需要创造全新基本单元时却表现困难。在实验3中,MSA难以理解评论中频繁出现的时间信息(例如:“Kai一直很快,直到第4场比赛扭伤了脚踝”),直到我们在提示模型中加入了相关抽象示例(即事件的时间顺序),情况才得以改善。一旦具备了这种抽象能力,MSA就能建模事件发生前、后或期间的影响,但它难以自主构建这类抽象。这些问题中的部分提示敏感性可能通过使用更大的语言模型,或专门针对模型合成任务进行微调的模型来缓解,这些模型可能学会更系统地探索可能模型的空间。
相关工作
本研究与四个方向的研究密切相关:模型近似与框架问题、语言模型引导的模型合成、语言理解的混合模型,以及概率程序中的语言模型基本单元。
模型近似与框架问题
关于“框架问题”(Frame Problem)的先前研究已在定义资源合理性(resource-rational)目标方面取得了重要进展(Lieder & Griffiths, 2020),即如何构建小型的、任务特定的模型,以近似在更大模型或先验知识下的推理与规划(Icard & Goodman, 2015;Ho et al., 2022)。这些工作提供了重要的理论存在性证明,表明可以构建更小但可处理的模型来近似更大(且不可处理的)模型,并且人们在推理和规划任务中的行为在经验上(Ho et al., 2022)与这些近似方法一致。然而,这些研究对心智如何实际得到这些小型近似模型的过程着墨甚少。本研究在此基础上,从Marr的算法层面出发,探讨了心智可能如何构建这些模型——通过将过程分解为基于相关性的模型合成机制,并展示如何利用从语言与程序联合经验中习得的模式,具体实现这一机制。
语言理解的混合模型
我们具体的计算方法更贴近认知科学中的一系列研究,这些研究展示了如何使用语言模型将自然语言转化为符号化的“思维语言”(Language of Thought, LoT),从而合成概率程序(Wong et al., 2023;C. E. Zhang et al., 2023;Ying et al., 2023;Ying, Zhi-Xuan, et al., 2025;Ying, Truong, et al., 2025)。这些先前工作主要关注自然语言明确描述所有必要符号结构的情况。我们在此基础上进行了扩展,将模型构建应用于需要从大量现实世界背景知识中调用相关信息的领域,从而迫使我们直面开放世界推理所提出的基于相关性的信息检索挑战。
用于模型发现的语言模型
我们的工作与三类使用代码语言模型合成世界或行为结构化模型的相关研究相联系。这些研究在模型合成的目标以及所合成模型的符号基础方面有所不同。
第一类研究聚焦于使用语言模型合成显式的、符号化的计算认知模型,用于描述人类(Rmus et al., 2025)或非人类动物行为(Castro et al., 2025)。我们与这些工作的区别在于,我们以概率程序作为临时模型的核心表征结构,这提供了一种表达能力极强的模型形式,并具备自动推理能力,与计算认知科学中早期的概率建模工作有紧密联系。我们的研究在框架和目标上也略有不同:前述研究旨在通过自动化提出科学模型来研究行为,而我们的MSA架构不仅可被如此解释,更代表了一种关于人类心智如何实际进行推理的算法级假设,即将灵活的认知本身视为一种临时模型合成的过程。
更广泛地说,我们的重点在于建模人们如何推理任意的、开放世界的情境,这使我们的工作成为一种面向更广泛领域通用性的认知模型合成的“概念验证”。这使我们区别于认知科学和人工智能领域中其他近期的自动化模型合成方法,后者多聚焦于特定领域的模型,例如用于解释社会推理的模型合成(Z. Zhang et al., 2025;Cross et al., 2024)。其他近期的人工智能工作则聚焦于合成世界模型,以表示(通常是确定性的)状态转移函数,用于决策和规划(Wang et al., 2023;Wong et al., 2024;Tang et al., 2024;Piriyakulkij et al., 2025)。这些工作可以与我们的方法有效结合,以合成支持规划和推断的概率模型,从而解释更广泛的临时推理现象。
最后,人工智能领域中一个相关且并行的研究方向已经开始使用语言模型合成概率模型(Feng et al., 2024;Xia et al., 2024),包括概率程序(Li et al., 2024;Domke, 2025)。这些工作在形式上与我们的最为相似,但在目标上有显著差异。后者尤其专注于从数据中自动化统计分析的科学建模。我们则聚焦于专为认知建模设计的表达性强的概率编程语言,并基于人类推理的实证证据来评估我们的方法。然而,与其它自动化建模研究一样,这些方法之间存在丰富的协同潜力——例如,将MSA方法扩展至模拟人类科学发现过程,或实现人工智能与人类“思维伙伴”之间的协作式科学发现,共同建模人类科学家本身以及他们对世界的认知模型(Collins et al., 2024)。
展望未来
开放世界认知的问题,本质上是如何在我们所面对的 vast 问题空间中做到“足够好”的推理。我们已朝这个方向迈出了一小步:在一个新颖的任务家族中,展示了可以为新问题实例自动合成合理的心理模型。然而,要判断这种方法是否能够扩展到人类认知所展现出的普遍性和灵活性水平,仍需大量探索。
要回答这一问题,需要探索更广泛的可能的模型合成架构(MSA)空间。这可能包括使用其他建模语言进行合成,例如支持长时程规划的语言(Zhi-Xuan, 2022)、支持多智能体推理的语言(Chandra et al., 2025),或支持从经验中学习分布性基本单元的语言(Lew et al., 2020; Dohan et al., 2022; Grand et al., 2025)。未来的研究还应探索其他模型合成策略,例如通过外部反馈来优化初始模型的方法(Wong et al., 2024; Wang et al., 2023),或同时考虑多个模型的方法(Loula et al., 2025)。最后,未来的MSA应具备从时间维度上学习模型构建的能力——通过合成架构的组件根据以往的成功或失败进行调整,并通过将成功的概念纳入建模语言来不断扩充其表达能力(Ellis et al., 2021; Grand et al., 2024)。
未来的MSA可以从两个方面进行评估:一是基于“真实准确性”——即它们所合成的模型本身是否优良;二是基于与人类行为各种指标的匹配程度。例如,我们可以探究:某些建模语言是否更能捕捉人们所认可的泛化模式?哪些合成策略更能拟合人类思维过程的动态特征(通过反应时间或人们判断的系统性变化来衡量)?
当前高度通用的人工智能系统时代意味着,我们对人类开放世界认知机制的深刻理解可能已触手可及。尽管我们尚未完全理解人类如何在广泛且不断扩展的思想领域中实现局部连贯、全局相关的推理,但研究这一问题的路径正变得清晰。通过扩展MSA及其纯语言模型替代方案,并系统地将它们与人类数据进行比较,我们现在可以开始有意义地区分不同的人类一般认知模型。认知科学已经极大地揭示了心智各个部分的运作机制;如今,它终于可以开始研究这些部分是如何协同工作的了。
补充材料:将开放世界认知建模为按需合成概率模型
实验与模型实现细节参考以下代码仓库:
https://github.com/lio-wong/msa-cogsci-2025-data
模型合成架构:附加实现细节
如正文所述,我们通过一个分阶段的流程逐步构建 Mad-hoc,该流程交替进行生成与评估步骤。所有实验中使用的基座语言模型(base LM)为 HuggingFace 提供的meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo
版本。我们通过 Together API 调用该模型。以下将详细介绍每一阶段所使用的参数和提示(prompting)设置。
在实验中,正如正文所述,我们将每位模拟人类参与者建模为最终合成一个单一的模型 Mad-hoc,该模型以输入的自然语言情境为条件。以下描述的是每位模拟人类参与者所使用的参数化设置。
每个生成阶段都包含一个该阶段的“框架提示”(frame prompt),我们在其中插入一组打乱顺序的背景示例,这些示例展示了本流程在若干预留情境(held-out example scenarios)中各阶段的执行过程(这些情境均未在主实验中直接出现)。具体而言,我们采用一种预留提示方案来选择这些示例:对于来自任一特定运动领域的情境(例如拔河),我们自动仅选择为其他运动项目(在此例中为皮划艇竞速和冬季两项)构建的背景示例,外加另外两个通用示例情境(跳水和考试),用于所有情境的提示。
下文将说明在代码仓库中何处可以找到各阶段的框架提示,这些提示中包含一个
标记,表示打乱后的示例将被插入的位置。所有打乱后的示例文件本身可在数据仓库的example-scenarios
目录中找到,其中包括:
用于实验1和实验2的原始示例:{拔河、皮划艇竞速、冬季两项、跳水、考试};
用于实验3的原始示例:{拔河、皮划艇竞速、冬季两项、跳水}。该实验较晚进行,我们为此构建了扩展示例,展示包含自由形式自然语言观察的模型。同时,我们在此实验中省略了“考试”这一示例领域。未来工作将进一步探索这些示例对生成过程的影响,并尝试构建更通用的示例集(或对模型进行微调,以消除对示例提示的依赖;本文中使用示例提示是因为我们基于一个通用基座模型构建系统)。
请注意,这些打乱的示例文本文件包含了所有生成阶段的串联内容(例如,每个示例文件包含一个输入情境、解析结果、自然语言背景信息、依赖图以及完整的概率程序)。
所有生成阶段的框架提示均位于仓库的msa-frame-prompts
目录下。解析阶段与背景知识/依赖图生成阶段使用同一个系统提示(system prompt),该提示也包含在同一目录中。而在临时概率程序模型生成阶段未使用系统提示。
解析阶段
在实验中,我们仅对每个参与者在温度(temperature)为 0.2 的条件下前向采样 k_parse = 1 个解析结果。总体而言,对于需要更强语法控制的生成阶段(如代码生成),我们使用较低的温度;而对于涉及自然语言生成的任务(如检索和生成非正式的相关变量),则使用较高的温度。
我们还实现了一个基于语言模型的评估函数 Φ_parse,用于对解析结果进行评分。但由于每位参与者仅采样 k_parse = 1 个结果,该评估函数的作用有限(我们通过实验发现,解析结果的变异性对下游模型质量的影响小于非正式知识生成的多样性;但在未来实验中,若语言更模糊或更自由,可适当增加 k_parse 的值)。
解析阶段的完整框架提示位于frame prompts
目录下的generate-parsing
文件中,评估提示位于score-parsing
文件中。该阶段的框架提示中插入了从输入情境到示例解析的打乱并串联的示例,起始于
标记处。
以下展示实验1和实验2中皮划艇竞速与冬季两项情境的若干解析示例(由于这两个实验仅背景信息不同,观察证据和问题在两种实验中保持一致)。我们省略了拔河示例,因其潜在变量与观察结果的格式与皮划艇竞速相同。这些解析摘自完整情境,展示了自然语言句子如何被解析为对应的代码行。请注意,解析出的代码 invariably 包含尚未生成的占位符函数调用,这些函数需在最终模型阶段生成。
合成形式化符号模型
最后,在最优评分的解析结果、非正式知识和依赖图的基础上,对每位模拟参与者,我们从语言模型(LLM)中以温度 temp = 0.2 采样一个完整的概率程序(k_program = 1)。如正文所述,我们将评估函数 Φ_formal 简单定义为:该概率程序是否能够成功编译,并对查询问题产生推断结果。
该阶段的完整框架提示位于frame prompts
目录下的generate-model
文件中。由于每个生成阶段都依赖于之前的所有生成步骤,因此此处插入的打乱并串联的示例现在包含了示例的全部文本内容,从原始情境开始,涵盖此前所有生成阶段,直至示例模型本身。
由于模型代码较为冗长,以下我们仅复现实验3中的一个模型片段,展示包含新参与者所提供细节的解析部分,以及对其他已命名函数的代码片段。
基于模型的贝叶斯推断
在本实验中,所有推断均使用 WebPPL 内置的拒绝采样(rejection sampling)推理引擎生成。推理的采样预算在正文中有说明:我们报告了每个模拟参与者在实验1和实验2中从 b_samples = 1000 个样本中得出的后验分布,在实验3中则为 b_samples = 500 个样本(因为总体而言,拒绝采样在实验3中更慢,这些情境中的观察往往指定了先验概率极低的稀有事件)。
自然语言推理实验:附加实验细节
“模型奥运会”情境片段
本补充部分提供了关于实验中所使用的“模型奥运会”领域情境片段的刺激材料生成与选择过程的更多细节。
如正文所述,我们为实验1、实验2和实验3构建了一组程序化生成的情境片段,每个片段包含以下内容:关于特定运动项目(拔河、皮划艇竞速或冬季两项)的语言背景描述;一组描述比赛结果的证据句子(在实验3中,额外增加一条由参与者生成的观察);以及8个问题。
在数据仓库的model-olympics-human-experiment
目录中包含:
用于实验1情境片段的 {拔河、皮划艇竞速、冬季两项} 运动的详细背景基础材料;
用于实验2情境片段的 {拔河、皮划艇竞速、冬季两项} 运动的未充分明确的背景基础材料;
用于实验3情境片段的 {拔河、皮划艇竞速} 运动的未充分明确的背景基础材料(不包含任何参与者生成变量的参考)。请注意,实验3中展示给模型的情境片段是基于未充分明确的背景(如实验2),我们再次提供这些材料以供比较。
基于这些基础背景,我们使用一组16种基础情境模板程序化地为每项运动生成情境片段。这16种模板包括:12种源自 N. D. Goodman 等(2014)研究中使用的证据模式(最初仅用于拔河领域),以及另外4种专门设计的模板,用于呈现噪声性和异常性证据,以评估参与者和模型是否基于“贝叶斯解释消除”机制来判断这些异常结果——即在多个联合潜在因果变量的作用下,异常结果相对于累积的相反证据应如何被解释。这些模板描述了锦标赛中运动员之间的关系;我们使用每项运动特有的潜在变量将这些模板实例化为具体的情境,并从一组性别中立的名字中随机抽取运动员姓名(以避免对运动员实力的先入之见)。然后,我们在这些程序化生成的模板中进行随机抽样,以选择本实验中报告的情境片段。
总计,如正文所述,本论文报告的每个实验的最终刺激材料包括:
实验1:为每项运动从全部16种可能的情境模板中随机抽取6个情境,共18个情境。请注意,这6个情境模板是为每项运动独立抽取的,因此不同运动的证据模式可能并不完全相同;
实验2:与实验1使用相同的情境模板,共18个情境,但采用未充分明确的背景描述,并重新生成运动员姓名;
实验3:5个拔河情境和4个皮划艇竞速情境,这些是基础情境片段扩展了由参与者生成的细节后形成的。如文中所述,这些基础情境在形式上相似,但在背景细节和推理问题的措辞上与实验1和实验2略有不同,因为实验3是在实验1和实验2之前进行的预实验。
如我们在下文人类实验细节中所述,本研究中的人类参与者实际看到的情境片段略多于本文最终报告或与模型结果比较的数量——我们移除了一个情境(在所有三组报告中均移除),因为其问题中提到了一名实际上并未参与某场比赛的运动员;此外,我们还移除了另一个运动领域“同步跳水”,因为参与者对该运动明显感到困惑,且回答的方差极高。目前,我们暂不公开实验1和实验2的完整确切刺激集,以及实验3所使用的刺激材料,以避免这些材料进入语言模型的训练数据集,同时我们正在准备本工作的扩展版本。完整数据集将在论文发表后公开发布,未来工作将致力于生成该数据集的更动态版本用于评估。
然而,以下我们展示一个来自拔河领域的情境片段示例,以说明详细背景(实验1)与未充分明确背景(实验2)之间的差异。
纯语言模型(LM-only)实验细节
代码仓库中的lm-only-baseline-prompts
目录包含了用于采集“LM-直接生成”(LM-direct)和“LM-思维链”(LM-CoT)基线模型判断的框架提示格式。
每个提示均包含向人类参与者展示的完整实验说明(但需注意,关于如何使用多点击判断界面的视频说明在提示中以文字形式描述,因为提示本身仅为文本);随后是完整的情境片段,以及如何回答每个问题的附加说明。
实验1:人类判断实验细节
所有参与者在实验前均看到预试说明,其中包含一个使用多点击滑块界面的示例教程,用于指示其判断的分布情况,包括GIF动图展示如何表达对某一后验模式的高确定性(例如,大多数点击集中在滑块一端)、对多个后验模式的分裂确定性,以及对连续范围的相对不确定性。
如正文所述,每位参与者评判从三项运动中每项随机抽取的两个情境片段。试验按运动项目分组(所有参与者先看到拔河情境,然后是皮划艇竞速,最后是冬季两项)。在四组批次条件中的三组(76名参与者中的57名)还额外看到了来自“同步跳水”领域的两个情境;但由于参与者对该领域普遍感到困惑,且回答的参与者间相关性极低,该领域后续被移除。
试验按每项运动分为若干部分。仅在实验1中,参与者在阅读特定运动的情境前,会额外看到该运动的完整背景描述(内容与详细背景D相同),并附有一个示例锦标赛,展示后续情境中可能出现的结果模式。参与者必须花15秒阅读该背景描述。这些背景描述的完整文本可在我们仓库的model-olympics-human-experiment
目录中找到。
随后,对于每个情境试验,参与者首先(1)看到包含背景信息、证据和问题的情境片段(但无输入滑块),如图8(顶部)所示的示例界面,并被要求在不继续操作的情况下思考15秒;之后可进入(2)多点击输入滑块界面,如图8(底部)所示。参与者为一个情境提供全部判断的中位时间为2.24分钟。参与者的基本报酬为每小时15美元,并被告知如果“在整个实验中尽最大努力回答每个问题”,可能获得最高每小时16美元的奖金;实际上,所有参与者均获得了该奖金。
实验2:人类判断实验细节
本实验的界面格式与实验1相同,但每个情境使用未充分明确的背景描述。此外,实验2的参与者在开始情境前未看到运动项目的完整背景描述(他们仅在阅读情境时同步阅读背景信息)。参与者平均每情境提供多点击判断耗时2.81分钟。与实验1类似,在四组情境中的两组中,参与者也看到了关于跳水项目的情境,但该运动后续被从分析中移除,因此这些情境也未纳入最终分析。
实验3:人类判断实验细节
本实验包括两个部分:人类评论生成实验(commentary elicitation experiment)和人类判断实验。
在评论生成实验中,如正文所述,N=20名参与者首先观看教程,被告知将阅读关于体育情境的片段,然后“扮演体育评论员”,撰写一到几句话,引入一个新细节,该细节会改变他们对一个随机选择的新比赛预测问题的推理。参与者被随机分配到不同条件,决定他们需要修改哪两个新比赛预测问题,以及他们被要求生成的细节是增加还是减少某一特定结果的可能性(基于其初始判断)。
在每次试验中,与先前实验一样,参与者首先完成完整的判断任务:阅读情境15秒,然后进入滑块界面,为所有问题输入判断。之后,他们被告知需要修改哪一个新比赛预测,以及评论应朝哪个方向影响判断。在撰写评论后,参与者会看到包含其评论的完整情境,并被要求重新输入对该新比赛预测的判断。
如正文所述,本实验仅使用拔河和皮划艇竞速两项运动;使用了9个基于实验2未充分明确背景的基础情境,且证据模式与实验1和实验2略有不同——特别是,这些情境包含更简单的单人对单人比赛结果模式,而实验1和实验2的情境仅涉及每队两名选手的团队比赛。此外,参与者在试验中看到的判断问题措辞也略有不同:力量问题改为询问运动员“有多强”(而非“在随机运动员中的绝对力量排名”),努力程度问题改为询问“投入了多少努力”(而非具体询问“百分比努力”)。
总计,本实验共收集到81条独立的初始评论观察。我们通过以下方式筛选出最终的9个情境:(1)排除所有在提供评论后未按指定方向调整其判断的参与者(例如,他们并未实际提高预测比赛的胜率);(2)排除疑似使用语言模型(参与者被明确禁止使用)或提供明显垃圾回答的参与者;(3)排除超过一句话的评论。随后,我们根据更具体的标准选择9条评论,以便未来研究推广:我们选择聚焦于单一运动员(而非关于世界的泛化描述,如“下雨了”)的评论,以及聚焦于单一新事件观察(如“运动员A服用了能量饮料”)或关于运动员的新信息(如“运动员A经验较少”)的评论。
在人类判断实验中,我们招募了新的一组参与者,要求他们像实验1和实验2一样提供 k = 5 次多点击判断。说明与实验1和实验2相同,但参与者被告知将阅读包含他人撰写的评论的情境片段。每位参与者在本次试验中看到全部 k=9 个带评论的情境。参与者获得实验2中的未充分明确运动描述,如正文所述。参与者平均每情境提供判断耗时约2.22分钟。
结果:补充分析
本节汇总了对人类与模型判断的额外分析。
实验1与实验2中人类与MSA判断的相关性
我们首先考察在实验1和实验2中配对的情境片段上,人类判断之间的相关性如何——即,当人们阅读详细背景信息(实验1)时所做出的判断,是否与他们在阅读未充分明确背景信息(实验2)时的判断相关。总体而言,如图9所示,这些判断高度相关,这在一定程度上表明,人们在推理实验2这种未充分明确的情境时,所调用和使用的信息类型,与实验1中被明确提供的信息相似。
值得注意的是,在皮划艇竞速项目(中间一列)中,相关性似乎较低——这表明,当人们需要自行补充细节时,他们倾向于采用与实验1中明确说明的版本不同的方式,来理解努力和力量如何共同影响观察到的结果。
我们对MSA的判断进行了相同的分析,比较实验1和实验2中MSA判断之间的相关性(图10)。总体而言,我们发现两个实验之间的判断高度相关,相关性甚至高于人类参与者之间的相关性——而且与人类参与者不同的是,在实验1和实验2之间,皮划艇竞速情境下的判断没有出现差异。这一现象值得进一步研究,因为它表明:在从未充分明确的背景信息出发生成临时模型时,模型合成过程所产生的判断分布多样性较低,可能反映出模型构建过程中采样多样性的不足。
用于比较人类与模型分布的总变差距离(Total Variation Distance)
为确保我们的分布性分析结果不依赖于Wasserstein距离度量,我们使用总变差距离(Total Variation Distance)重复了分布性分析(该度量在比较分布时不考虑定义域的“地理”结构)。与Wasserstein距离分析类似,我们首先将参与者和模型的判断分桶(划分为10个区间),然后在这些桶上计算度量值。如图11所示,我们在不同模型、运动项目和实验中观察到了相似的趋势。
所有模型的人-模相关性
下文包含了三个实验中人类平均判断与各模型平均判断之间的完整散点图集合。图12展示了实验1和实验2的额外黄金模型结果,图13为直接生成语言模型(Direct-LLM)的结果,图14为思维链语言模型(CoT-LLM)的结果。图15则展示了实验3中所有模型的散点图对比。
人-模相关性(补充说明)
图16还简要总结了实验1与实验2之间的定性误差分析模式,突出了纯语言模型基线与人类判断在整体判断模式上的差异(红色标注)——同时也揭示了MSA基线与人类判断分布性质之间的差异(语言模型的判断往往比符号化模型的后验分布更尖锐,这可能是由于5次采样过程所导致的人为效应)。
原文链接:https://arxiv.org/pdf/2507.12547
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.