贝叶斯认知模型 逆向工程思维
Bayesian Models of CognitionReverse Engineering the Mind
https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html
![]()
![]()
![]()
17 逻辑表示上的贝叶斯推理
我们的世界包含许多事物,比如胡萝卜、儿童和兔子,而我们所有人都对这些事物了解颇多。我们知道物体的属性——例如,我们知道胡萝卜是橙色的,兔子是毛茸茸的。我们也知道物体之间的关系——例如,我们知道兔子吃胡萝卜,每个孩子恰好有两个生物学父母。理解这类常识性知识是如何组织和习得的,是认知科学的一项核心挑战,而本章将讨论有助于应对这一挑战的概率方法。
任何关于常识性知识的成功理论都必须满足两个基本标准。首先,它必须使用足够丰富的表征形式,以捕捉常识性知识的内容。本书前面的章节已经描述了一些能够表达这类知识某些方面的表征方式:例如,第4章介绍的因果贝叶斯网络可以表示诸如“有翅膀”和“会飞”等属性之间的关系。然而,很难想象一个贝叶斯网络如何表示“每个孩子恰好有两个生物学父母”这一事实。认知科学家已经探讨过许多比简单贝叶斯网络更具表达力的表征形式,包括逻辑理论、图式(schemas)、框架(frames)、脚本(scripts)和语义网络(semantic networks)。在本章中,我们使用谓词逻辑来刻画关于对象、属性和关系的知识。谓词逻辑包含指代对象、特征和关系的符号,这些符号可以组合起来构建能够捕捉各种定律和原理的理论。
采用富有表达力的表征是一个有用的起点,但第二个基本要求是解释这些表征是如何被习得的,以及如何被用于进行归纳推理。第16章展示了如何在语法之上定义概率模型,以及概率推理如何帮助解释这些语法如何被用于解析句子以及如何被习得。类似地,本章将讨论如何在逻辑表征之上定义概率模型,以及概率推理如何解释逻辑理论是如何被使用和习得的。
从认知科学诞生之初,逻辑就一直是其组成部分,但通常被作为一种演绎推理的规范性描述——例如,目标是解释人类如何从一组给定陈述中推导出必然结论。本章采取一种不同的方法,将逻辑视为一种知识表征手段,而非推理机制。我们并不使用逻辑进行推理,而是提出:概率推理可以解释逻辑表征是如何被学习并用于推理的。人工智能和机器学习领域的先前研究已将逻辑与概率以这种方式结合起来,并表明逻辑表征可以有效地与概率推理相结合(Muggleton, 1996;Richardson & Domingos, 2006;De Raedt, Frasconi, & Muggleton, 2008)。本章在此基础上进一步提出,将逻辑与概率相结合有助于解释人类知识是如何被习得和使用的。
17.1 逻辑理论
我们将通过说明谓词逻辑如何刻画图17.1a所示社会系统的知识来引入谓词逻辑。该系统描述了一群红翅黑鹂(red-winged blackbirds)之间的交配关系。网络中的节点代表鸟类,如果个体x与个体y交配,则在节点x和节点y之间存在一条连接。
图17.1b的右侧展示了一些逻辑语句,这些语句用于捕捉图17.1a中系统的相关信息。该逻辑语言包含代表特定对象的符号(例如,a和b是特定的鸟)以及取值于对象集合的变量(例如,x和y)。该语言还包含指代特征和关系的符号。例如,C(·, ·)(意为“与……配对”)表示交配关系,而M(·)是一个二元特征,用于指示某个给定对象是否为雄性。该语言还包括一个特殊关系 = (x, y),当x和y指向同一对象时,该关系为真。按照传统的数学记法,我们将这类陈述写作 x = y,而非 = (x, y)。
![]()
最简单的逻辑语句仅指定一个单一事实。例如,M(a) 表示鸟a是雄性,C(a, e) 表示鸟a与鸟e交配。否定符号 ¬ 可用于否定一个陈述:例如,¬M(e) 表示鸟e不是雄性。简单语句可以通过四种二元联结词组合:且(∧)、或(∨)、如果(→),以及当且仅当(↔)。例如,M(a) ∧ ¬M(e) 表示a是雄性且e不是雄性;M(a) ∨ ¬M(a) 表示a是雄性或a不是雄性。
除了这四种二元联结词外,图17.1b中使用的逻辑语言还包括作用于对象集合的量词。“全称”量词(∀)表示一个陈述对所有对象都为真。例如,∀x[M(x) ∨ ¬M(x)] 表示对于所有鸟x,要么x是雄性,要么x不是雄性。“存在”量词(∃)表示一个陈述对某个对象为真。例如,∃xM(x) 表示存在某只鸟是雄性。
图17.1b中的理论使用了上文所述的表征资源,以捕捉图17.1a中社会网络的一些抽象属性。理论中的第一条法则表明交配关系C(·, ·)是对称的:换句话说,对于所有鸟类对x和y,x与y交配当且仅当y与x交配。第二条法则表明,如果x与y交配,则要么x是雄性而y不是,要么y是雄性而x不是。最后一条法则表明雌性最多只有一个配偶。
上述刚介绍的表征语言是一种标准的一阶谓词逻辑变体,但人们已开发出许多其他逻辑语言。这些语言可根据其不同的表达能力划分为不同家族。例如,命题逻辑不允许量化,一阶语言允许对对象进行量化但不允许对关系进行量化,而二阶语言则允许对对象和关系同时进行量化。此外,还有一些逻辑系统包含模态联结词,其表达能力超越了图17.1b中的例子,并可用于多种目的,包括表述关于知识、无知和信念的陈述(Verbrugge, 2009)。然而,模态逻辑超出了本章的讨论范围,我们主要关注一阶谓词逻辑。
17.2 理论学习的一种分层贝叶斯解释
为了解释理论如何被习得和使用,我们采用一个三层的分层贝叶斯框架(参见第8章)。图17.1b展示了该框架的一个示例。顶层指定一个用谓词逻辑表达的理论。请注意,在此语境中,“模型”是一个技术术语,我们从标准的逻辑处理方法中继承了这一术语(Chang & Keisler, 1973)。该模型以符合理论的方式,具体规定了每个特征和关系的外延。例如,雄性特征 M(·) 的外延指定了每只鸟是否为雄性;交配关系 C(·, ·) 的外延则对每一对 (x, y) 指定了 x 是否与 y 交配。这些外延是完整指定的,对于某只鸟是否为雄性或某对鸟之间是否存在交配关系,不存在任何不确定性。模型的底层则指定了学习者可能观察到的不完整且可能带有噪声的数据。图17.1b 描述了一种情况:学习者观察到了交配关系 C(·, ·) 的若干正例,但并未观察到 C(·, ·) 的负例以及特征 M(·)。
要将图17.1b中的层级结构转化为概率模型,我们必须指定三个分布:理论 t 上的先验分布 P(t),描述模型 m 如何由潜在理论生成的分布 P(m|t),以及描述观测数据 d 如何由潜在模型生成的分布 P(d|m)。下文各节所描述的应用在这些分布上做了不同的假设,但一个共同的主题是:先验分布 P(t) 应当倾向于更简单的理论而非更复杂的理论。
在图17.1b所示的层级结构上定义了概率分布之后,所得到的分层模型既可用于自下而上的推理,也可用于自上而下的推理。此处,我们关注的是学习者在底层观察到不完整信息,并必须同时推断中间层的模型和顶层的理论的情形。当模型和理论包含未被直接观察到的特征和关系时,这种学习问题尤其有趣。例如,在图17.1中,特征 M(·) 在底层未被观察到,但仅基于所观察到的网络,学习者可能会注意到有两种鸟——那些拥有多个配偶的鸟和那些最多只有一个配偶的鸟。发现未被观察到的特征和关系有时被称为“谓词发明”(predicate invention)(Kok & Domingos, 2007)。
尽管到目前为止我们主要关注一种相对标准的一阶谓词逻辑版本,但图17.1b中的分层框架与许多表征语言是兼容的。选择表征语言时的关键一步是决定该语言应具有多大的表达力。例如,图17.1中使用的语言在许多方面与命题语言相似,但它包含了量词 ∀ 和 ∃,而命题语言则没有。一般来说,语言的表达力与其所表达理论的学习可处理性之间存在权衡:语言越具表达力,可能的理论数量就越多,根据观测数据识别出后验概率最大的理论也就越困难。
17.3 学习一种亲属关系理论
图17.1聚焦于单一关系,但我们现在转向一个更复杂的场景,该场景涉及血亲之间存在的多种亲属关系(例如,母亲、姑母和祖母)。我们考虑这样一个问题:学习者观察到某些个体对之间的关系,并必须学习一个理论来指定这些关系,例如,“父母的姐妹是姑母”。多位研究者已开发出学习逻辑亲属理论的模型(Quinlan, 1990; Pericliev & Valdés-Peréz, 1998; Katz, Goodman, Kersting, Kemp, & Tenenbaum, 2008; Mollica & Piantadosi, 2021),此处描述的方法基于Kemp和Regier(2012)的工作。
图17.2a展示了一棵包含32位亲属的家谱树,其中一位被标记为“自我”(Ego)。我们考虑将家谱树划分为若干类别的亲属系统,使得“自我”用相同的术语指代同一类别中的个体。图17.2a中的颜色显示了一个包含14个类别的系统。例如,“自我”的母亲的母亲(MM)和父亲的母亲(FM)具有相同的颜色,因为“自我”用同一个词(“祖母”)来指代她们。不同的语言拥有不同的亲属系统,但我们将重点关注图17.2a中所示的英语亲属系统。
![]()
图17.2b展示了一个捕捉英语亲属系统的逻辑理论。例如,第一条规则表明:对于所有个体x和y,x是y的母亲当且仅当x是y的父母且x是女性。该理论使用四个基本概念进行表述:PARENT(·, ·)、CHILD(·, ·)、MALE(·) 和 FEMALE(·)。如果需要,基本概念集可以缩减为两个,因为CHILD可以用PARENT定义(反之亦然),FEMALE可以定义为MALE的否定(反之亦然)。亲属系统中的所有关系最终都必须用这些基本概念来定义:例如,sister(·, ·) 是用概念daughter(·, ·) 定义的,而后者又用基本概念CHILD(·, ·) 和 FEMALE(·) 定义。请注意,所使用的逻辑语言要求每条规则的右侧是一个恰好包含两个组成部分的合取式。
图17.2中的理论需要15条规则来定义英语亲属系统中的14种关系。其中一条规则用于定义关系sibling,该关系并未出现在图17.2a所示的系统中,但被用来定义niece和nephew的关系。结果表明,至少需要15条规则才能描述英语亲属系统,这意味着图17.2b中的理论是英语亲属系统最简可能表征之一。然而请注意,其他15条规则的表征也是可能的,包括将sister定义为女性同胞的一种理论。
第17.2节介绍的分层贝叶斯方法有助于解释像图17.2b中的例子这样的理论是如何被习得的。图17.2c展示了一个分层模型,其顶层指定了理论t。在此层级上的学习需要一个关于理论的先验分布P(t),这里我们采用一种描述长度先验,使得P(t)与t中规则的数量成反比。中间层的模型m指定了理论中提及的每个概念的外延。图17.2b中的模型列出了每个概念的所有且仅有的正例。为简化起见,我们只考虑那些完整划分图17.2a中家谱树的理论——换句话说,我们只考虑那些完整划分家谱树的理论。因此,分布P(m|t) 对于唯一一个与t一致的模型m取值为1,而对于所有其他模型取值为0。最后,底层指定了可用于学习的数据。我们假设所有基本概念的外延均被观测到,且“自我”用于指代全部32位亲属的关系也被观测到。例如,图17.2c所示的数据集指明M是“自我”的母亲,F是“自我”的父亲,等等。然而请注意,有些关系未被观测到:例如,数据并未指明MM是M的母亲,同胞关系也完全未被观测到。
在我们所作的假设下,关于理论的后验分布 P(t∣d)具有如下简单形式:
![]()
因此,识别出使 P(t∣d)最大化的理论 t,等价于寻找一个能够解释数据的最简可能理论。通常情况下,可能理论的集合构成一个庞大的组合空间,在该空间中识别最佳理论在计算上具有挑战性。图17.2b中的理论是使用Kemp和Regier(2012)所描述的深度优先搜索策略确定的。
我们假设数据 d指定了“自我”在家族树中对每一位亲属所使用的亲属称谓,但如果其中某些称谓未被观测到,则可以利用分布 P(t∣d)进行预测。人工智能与机器学习研究者一直关注预测保留亲属关系的问题(Hinton, 1986; Paccanaro & Hinton, 2002),而Quinlan(1990)描述了一种依赖逻辑表征来解决该问题的方法。
Quinlan预测亲属关系的方法属于归纳逻辑程序设计这一更广泛文献的一部分,该文献中的一个核心思想是:可以通过寻找能够解释某些数据的最简理论来习得逻辑理论。简洁性可以用不同方式形式化(参见第21章),但统计理论中符号数量是一种标准方法。将理论复杂度形式化为最短描述长度(MDL)的模型可被称为最小描述长度(MDL)方法(Chater & Vitányi, 2003b; Mackay, 2003; Grünwald, 2007),而图17.2c中的分层框架可视为其中一个例子。正如该框架所表明的,理论的先验概率应与其长度成反比,这一理念正是连接概率方法与MDL方法用于学习和推理的纽带。
17.4 学习关系类别
逻辑表征之所以具有吸引力,部分原因在于它们能够捕捉相对复杂的系统,包括包含许多相互关联关系的亲属系统。然而,亲属理论对人类而言往往需要较长时间才能学会,因此我们转向一个更简单的场景,该场景支持对理论学习的实验研究。我们所考虑的理论是用于指定单一类别的逻辑表征。每个类别的成员是一组图形,图17.3展示了这些图形的若干示例。这些图形沿三个维度变化——大小、阴影和圆圈位置——且每个维度有五种可能的取值。
![]()
图17.3的中间层级展示了一个由五个图形组成的组的示例。该组属于一个类别,该类别包含所有三个维度均对齐的组。随着圆圈位置从左向右移动,注意图形的尺寸会增大,阴影也会变深。其他组也属于同一类别——例如,仅包含图17.3中前三个图形的组。其他可能的类别包括:组内所有图形必须大小相同;或组内所有图形在某个维度上必须彼此不同。
前文所使用的相同分层框架有助于解释这些关系类别是如何被习得的。顶层是一个逻辑理论,用于指定哪些组是该类别的有效实例。该理论使用一种支持对维度和对象进行量化的语言来表述。例如,图17.3中表达的理论规定:对于所有维度 Q 以及所有图形 x 和 y,x 在维度 Q 上小于 y 当且仅当 x 在维度 D₁ 上小于 y。如果 D₁ 是尺寸维度,则该理论表明所有维度必须与尺寸维度对齐,这意味着所有三个维度都必须相互对齐。与亲属关系模型一样,我们在顶层的逻辑理论上采用描述长度先验 P(t):
![]()
其中 |t| 是理论 t 中符号的数量,λ 是介于 0 和 1 之间的常数。更长的理论 t 具有更大的 |t| 值,因此其先验概率 P(t) 更小。
中间层的模型 m 是一个必须与顶层理论一致的组。通常情况下,会有多个组与该理论一致,我们假设 m 是从所有与 t 一致的组中均匀随机抽取的:
![]()
![]()
等式右侧的最后一项指定了对理论空间的求和。Kemp 和 Jern (2009) 描述了如何通过枚举一个庞大但有限的理论空间并对该空间求和,来近似计算公式 (17.5)。
图17.4 总结了一项实验的结果:参与者被展示一组五个图形中的四个,并被要求推断未观察到的那个图形。这四个已观察到的图形以三元组的形式呈现,代表每个图形在三个维度上的取值。例如,图17.4a中四个已观察到的图形恰好对应于图17.3底部所示的四个已观察图形。基于这四个图形,人类与模型都压倒性地预测缺失的图形是 222,这一预测与“所有维度均对齐”的推断一致。图17.4b 展示了第二个例子,其中维度2和维度3是对齐的,且所有已观察图形在维度1上的取值均为3。在此情况下,人类与模型均同意,缺失的图形最有可能是 344。在图17.4 所示的六个问题中,有五个问题的最佳模型响应与最常见的受试者响应相同。在剩余的问题(图17.4d)中,模型生成了一个在维度2上取值为3的所有卡片上的扩散分布,而所有人类的响应都符合这一规律。
![]()
本节描述了一种基于 Kemp 和 Jern (2009) 工作的类别学习模型,但其他研究者也开发了结合逻辑表征与概率推理的类别学习理论(Kemp, Han, & Jern, 2011; Piantadosi, Tenenbaum, & Goodman, 2016)。下一节将介绍其中一个此类模型,该模型使用语法来指定理论上的先验分布。
17.5 使用语法指定逻辑理论上的先验
到目前为止,我们已经给出了几个依赖于谓词逻辑的表征语言的例子,但我们对每种语言的处理相对非正式,并未给出可在每种语言中形成的理论的正式规范。提供这种规范的一种方法是在图17.1b所示的分层框架中增加一个新层级,该层级位于其紧邻下方,用于定义生成逻辑理论的语法。除了提供对理论空间的精确刻画外,生成性语法还可用于在理论空间上制定先验定义。在本节中,我们将通过一个被称为“理性规则模型”(rational rules model)的概率概念学习模型来阐释这两个想法(Goodman, Mansinghka, Roy, Bonawitz, & Tenenbaum, 2008a)。许多早期的概念学习理论也依赖于逻辑表征(例如,Bruner, Goodnow, & Austin, 1956; Nosofsky, Palmeri, & McKinley, 1994; Feldman, 2000),但我们关注理性规则模型,是因为它强调语法与概率推理的结合。
继经典工作(Bruner, Goodnow, & Austin, 1956; Shepard, Hovland, & Jenkins, 1961)之后,我们将聚焦于在具有二元特征的对象上定义的概念,并考虑对应于单个逻辑规则的理论。例如,假设对象在颜色(红色或蓝色)、形状(圆形或方形)和尺寸(小或大)方面有所不同。考虑对应于所有蓝色圆形的概念。该概念可表示为规则 ∀x l(x) ⇔ f₁(x)=1 ∧ f₂(x)=0,其中 l(x) 是一个标签,指示 x 是否为该概念的一个实例,而该规则表明:对于所有对象 x,x 是该概念的一个实例当且仅当 x 的第一个特征取值为1且第二个特征取值为0。
尽管此设置看似简单,但可能存在无限多条可被考虑的逻辑规则。例如,∀x l(x) ⇔ (f₁(x)=1 ∧ f₂(x)=0 ∧ f₂(x)=0) 所挑选出的概念恰好与我们上述更简单的规则相同,我们可以无限地继续添加冗余子句。在这一无限空间上定义先验分布初看似乎颇具挑战性,但语法提供了一个优雅的解决方案,我们可以通过定义一个能生成这些规则的概率语法来定义规则上的先验分布。
图17.5 展示了这样一个语法。我们从符号 S 开始,将其重写为 ∀x l(x) ⇔ (D)。接着我们重写 D,比如重写为 (C) ∨ D。将 D 重写为 False 并将 C 重写为 P ∧ C,得到公式 ((P ∧ C) ∨ False。如果我们用 F₁ 替换 P,用 P ∧ C 替换 C,则再用 F₂ 替换 P,用 True 替换 C,我们得到
![]()
![]()
该语法使用一组有限且紧凑的产生式规则,来规定一个无限的可能规则集合。为了获得一个非常自然的先验,我们只需为这些产生式赋予概率,从而构建一个概率性的上下文无关语法(参见第16章)。由此得到的公式先验具有一个重要性质:构建所需步骤更少的公式将具有更高的先验概率。因此,该先验天然倾向于句法上更简单的公式,这与本章早前描述的最小描述长度(MDL)方法相呼应。
然而,仅仅为该语法中的产生式规则分配概率存在一个缺点:我们通常没有先验理由来为这些概率赋予特定数值,从而导致大量自由参数。一种解决方案是对这些产生式概率 τ 引入不确定性。我们假设 τ 的可能取值服从均匀先验。于是,某个特定推导 t 的概率变为:
![]()
其中,s 表示文法的一条规则;τ(s) 是其概率;s ∈ t 包含了在推导 t 时所使用的那些规则;β(v) 是多项式 beta 函数(即,参数向量为 v 的狄利克雷分布的归一化常数,参见第3章);而 |{γ∈t}| 是非终结符符号 γ 在推导 t 中出现次数的向量。允许对概率 τ 存在不确定性,从而在先验分布中引入了长程统计依赖性。这些依赖性被证明有助于解释对假设中更常用部分的选择性关注(参见 Goodman 等人,2008a)。
为了计算似然度,我们需要指定一个函数,该函数能根据对象的特征值,计算出该对象属于正在学习的概念的概率。在这种情况下,逻辑规则可用于判断给定对象是否属于该概念。我们还需要能够容纳错误——即观察到的特征与逻辑公式预测的特征不同的情况。Goodman 等人(2008a)假设这些错误以某个固定概率独立发生,导致似然函数正比于 exp{-bk},其中 b 是模型的一个参数,k 是逻辑规则与观察特征之间的不匹配数量。
使用文法来定义逻辑概念上的先验分布,也有助于解决后验推断问题。每个公式都可以用一棵树结构表示,展示它是如何由文法生成的(关于概率文法的更多细节,请参见第16章)。Goodman 等人(2008a)定义了一种马尔可夫链蒙特卡洛(MCMC)算法,用于从逻辑公式上的后验分布中采样,该算法基于随机修改这些树的结构,使得可以有效地搜索无限的公式空间。由于先验偏好较短的公式,该算法大部分时间都在探索给定概念的简短描述,这与 Feldman(2000)先前记录的人类概念学习模式一致。
这个概念学习模型只有一个自由参数 b,它决定了公式需要多好地捕捉观察结果。然而,它的预测与人类概念学习惊人地吻合。表17.1 展示了一个由 Medin 和 Schaffer(1978)研究的经典概念学习问题。在这个问题中,人们观察两个概念的带标签样本,然后将其推广到一组新对象。如表所示,人们为每个新对象选择特定标签的比例与理性规则模型的预测高度吻合。
![]()
此版本模型所使用的规则相对简单,事实上它们可以被不涉及量化的命题规则所取代。然而,类似的基于文法的方法也可用于开发依赖于更丰富逻辑语言的模型。Piantadosi 等人(2016)考虑了既能表达一阶又能表达二阶量化的语言,并发现一阶(而非二阶)量化对于捕捉人们的判断似乎至关重要。基于文法的方法还可用于捕捉关于现实世界概念的推理,例如数值概念(Piantadosi, Tenenbaum, & Goodman, 2012)和亲属关系概念(图17.2)。例如,Mollica 和 Piantadosi(2021)描述了一种基于文法的方法,有助于解释不同文化的学习者如何获得亲属关系术语的逻辑表征,包括图17.2中所示的英语亲属称谓。
17.6 未来方向
本章介绍的模型依赖于各种表征语言,而持续研究的一个关键挑战是确定哪种表征语言能最好地解释人类行为(Piantadosi 等人,2016;Denić & Szymanik,2022)。一个自然的工作假设是,存在一种单一的思想语言,刻画这种语言将有助于解释跨多个情境的学习和推理。然而,任何此类统一的解释都需要说明,为什么该语言的某些方面在某些情境中被利用,而在其他情境中则没有。例如,人们显然具备思考谓词量化(Kemp & Jern, 2009; Kemp, 2012)的概念机制,但这种能力似乎并未在某些情境中被使用(Piantadosi 等人,2016)。
如果存在一种单一的思想语言,它几乎肯定既能表达陈述性描述(如“一个正方形有四条等长的边和四个相等的角”),也能表达生成性描述(如“一个正方形可以通过重复包含前进步骤和90度转弯的操作来绘制”)。本章回顾的逻辑方法最适合用于表述陈述性描述,而生成性描述则自然地用概率程序来表述(Piantadosi, 2021; Ellis 等人, 2021; Dehaene, Al Roumi, Lakretz, Planton, & Sablé-Meyer, 2022)。需要进一步的工作来澄清陈述性描述和生成性描述各自的相对优点(参见 Pullum, 2020),以及它们如何可能结合。尽管概率程序为表示多种知识提供了一种统一的语言(参见第18章),但似乎某些认知方面最好由陈述性描述来捕捉。例如,学习者可能理解“幻方”(一个从1到n的数字网格,其每行和每列的总和均相同)的概念,却无法生成该概念的实例。
尽管本章聚焦于组合性表征语言,但人类学习者几乎肯定也依赖于其他类型的心理表征,其中一些与本文所考虑的表征在性质上截然不同。例如,感官信息通常可能用与逻辑理论在性质上不同的心理意象来编码(Paivio, 1991; Pearson & Kosslyn, 2015)。尽管有时会将专注于组合性表征语言的方法与专注于心理意象的方法对立起来,但更有前景的方向是理解人们如何整合这两种表征。研究人员已开始开发解决这一挑战的概率模型(Erdogan, Yildirim, & Jacobs, 2015),但在此方向上仍需进一步的工作。
17.7 结论
本章论证了概率模型有助于解释丰富的知识系统是如何被习得和使用的。我们认为,逻辑理论为刻画丰富的知识系统提供了一种自然的方式,并展示了知识表示的逻辑方法可以与推理和推断的概率方法相结合。为阐明这些思想,我们展示了逻辑与概率如何结合起来,支持关于社交网络、亲属系统以及概念与范畴的推理。本章所讨论的模型有助于解释在某些相对简单的环境中概念和理论是如何被学习的,但要解释现实世界中的理论学习则是一个更大的挑战。具体而言,关于理论学习的计算解释最终应旨在说明:儿童如何在发展过程中习得直觉理论(见第20章),以及科学家如何发现新理论(Langley, Simon, Bradshaw, & Zytkow, 1987;Schmidt & Lipson, 2009;Ellis 等, 2021)。心理学家和人工智能研究者已开始探索这两个问题,而概率模型为在这两个领域取得进一步进展提供了可能的路径。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.