Learning Inductive Bias with Hierarchical Bayesian Model
分层贝叶斯模型学习归纳偏差
《贝叶斯认知模型 逆向工程思维》
![]()
![]()
为简化问题,学习模型通常聚焦于单次学习事件。例如,一个孩子在看到一个带有标签的示例后,就学会了“袋熊”(wombat)这一新概念。贝叶斯模型或许可以通过一个先验分布来解释这一结果,该先验分布捕捉了孩子在此次学习事件中所带入的已有预期。这是一个有益的起点,但至少还有两个根本性问题有待解决。
第一个问题是:先验分布从何而来?我们已经看到,先验分布在贝叶斯模型中起着关键作用,这意味着我们必须认真思考学习者是如何为特定任务获得恰当的先验的。
第二个相关的问题是:当前的词汇学习事件与孩子生活中其他词汇学习事件之间有何关联?儿童需要学习大量词汇的含义,因此必须考虑以往的学习事件如何帮助加速未来的学习。例如,学习过以往的词汇可能帮助孩子意识到,像“袋熊”这样的新词更可能指代整个物体,而非物体的某个部分或属性。只要学习者面对的是来自同一类别的多个任务,利用以往学习事件通常就是可行的——例如,儿童必须学习多种工具和人工制品的因果结构,并在多种社会情境中发现适当的行为模式。在每种情况下,我们都希望理解儿童是如何“学会学习”的,换句话说,就是学习如何通过发现并利用不同任务之间的共同要素而得到加速。
本章提出,分层贝叶斯模型(hierarchical Bayesian models)有助于解释先验从何而来,以及儿童如何学会学习。分层模型与前几章中较简单的模型之间的关键区别在于“抽象”(abstraction)这一概念。如图8.1所示,人类知识体系通常被组织成多个抽象层次。学习往往需要在这些不同层次上进行推理。例如,学习语言的婴儿可能认识到:语音是音素(phonemes)的具体实例,音素串连起来构成词语,而语法规则则规定了哪些词序构成可接受的句子(图8.1a)。视觉经验可能使婴儿认识到:世界包含物体,物体由部件组成,且存在更高层次的规律性,可预测哪些物体倾向于共同出现(图8.1d)。观察他人行为的婴儿可能认识到:这些行为通常是为了实现某种目标,而这些目标是通过串联一系列低层次的运动指令来达成的(图8.1b)。
![]()
本章将聚焦于图8.1中剩下的三个例子:我们探讨儿童如何学习多个类别(图8.1c)、如何学习多个因果模型(图8.1e),以及如何学习一组物体的多种属性(图8.1f)。图8.1c中的层次结构表明,如果儿童已经获得了关于类别的一般性抽象知识(例如,属于同一类别的物体往往具有相同形状),那么他们就更容易学习具体类别(例如,球是圆的)。图8.1e中的层次结构表明,如果学习者已经获得了关于物体类别的更抽象知识(例如,药物可能引起头痛),那么他们就更容易学习涉及特定物体的因果模型(例如,一片Lariam药片的作用)。最后,图8.1f中的层次结构表明,如果学习者已经获得了一个结构化表征(例如一棵树状结构),能够指示哪些动物倾向于共享某些特征,那么他们就能对新的生物特征做出更有把握的推断。
正如我们将看到的,分层贝叶斯模型是一种定义在类似图8.1所示抽象层次结构之上的概率模型。较高层次的知识为较低层次的推理设定了先验分布,而对整个层次结构进行的概率推理则可以解释上层抽象知识是如何习得的。因此,分层贝叶斯模型有助于解释先验分布如何从以往的学习事件中获得,以及这些习得的先验如何促进后续学习事件中的快速学习。
8.1 一个分层Beta-二项式模型
我们将从考虑一个简单的分层模型开始,该模型建立在前几章讨论的抛硬币模型基础上。然而,现在我们考虑的是装有弹珠的袋子而非硬币——袋子类比于硬币,黑色和白色弹珠类比于正面和反面,从袋中抽出一颗黑色弹珠类比于抛硬币得到正面。
想象一下,你得到了一袋新弹珠,并从中抽出一颗弹珠,结果是黑色的。单凭这一观察本身,并不能提供关于袋内颜色分布的有力证据。然而,假设你之前已从20个先前的袋子中各抽取了20颗弹珠,并观察到每个袋子中的弹珠都只有一种颜色——要么全是白色,要么全是黑色。那么,你可能会相对确信新袋子里的所有弹珠都是黑色的。先前袋子的经验塑造了你对新袋子所带入的先验期望,而你所获得的这种先验知识使你能够仅根据关于新袋子的一条信息就做出强有力的推断。
![]()
![]()
![]()
![]()
![]()
8.1.1 词汇学习中的形状偏好(Shape Bias)
到目前为止,我们关注的是关于弹珠袋的推断,但图8.2a所概括的分层方法有助于解释儿童如何在仅获得一个带标签示例的情况下学习词语。假设一位母亲指着台面上一个陌生的物体,并告诉她的孩子那是一个“spork”(叉勺)。原则上,孩子可能会对这个词的含义提出多种假设:例如,孩子可能会将这个新词扩展到任何由相同材料制成的其他物体,或者扩展到任何其他放在台面上的物体。然而,到了24个月大时,儿童更倾向于将这个新词扩展到任何在形状上与原始示例相似的其他人造物体(Smith, Jones, Landau, Gershkoff-Stowe, & Samuelson, 2002)。
人们有时将“同一类别中的成员往往在形状上相似”这一预期称为形状偏好(shape bias)。通过扩展图8.2a中的分层模型,有助于解释形状偏好是如何习得的(另见第1章中的图1.4和图1.5)。首先假设这些袋子可以包含多种不同颜色的弹珠,而不仅限于黑色和白色。现在,θᵢ 指定了对所有可能颜色集合上的一个分布,而方程(8.4)中的先验分布 p(θ) 是一个狄利克雷分布(Dirichlet distribution),即第3章中介绍的贝塔分布的 n 维推广。假设该模型观察到来自若干袋子的弹珠:从第一个袋子中抽出的所有弹珠都是红色的,从第二个袋子中抽出的所有弹珠都是绿色的,依此类推。在这样的证据下,如果从一个新袋子中仅抽出一颗蓝色弹珠,该模型便会自信地推断出该袋子中的所有弹珠都是蓝色的。
现在假设,装有彩色弹珠的袋子被替换为物体类别,且这些物体在多个维度上变化,而非仅在一个颜色维度上变化。图8.3展示了一个简单示例:学习者从三个类别中各观察到三个物体,并从一个新类别中观察到单个物体。请注意,这些物体在颜色和形状上均存在差异。我们可以为每个维度引入一份分层模型的副本:例如,将有一个 θᵢᶜ 变量用于第 i 个袋子,以捕捉该袋子内的颜色分布;还有一个 θᵢˢ 变量用于捕捉该袋子内的形状分布。图8.3将这两个变量合并为一个标记为 θᵢ 的向量。正如每个维度都有一个 θᵢ 变量一样,在第3层级上,每个维度也都有其对应的均值和尺度参数。
![]()
图8.3a所示的观测数据表明,任何给定类别的成员在颜色上可能有所变化,因此,颜色维度上的尺度参数的后验分布会表明该参数相对较高。然而,来自同一类别的物体具有相同的形状,因此,模型将推断形状维度的尺度参数相对较低。对这两个维度的尺度参数进行上述推断意味着,模型预期新类别的所有成员都将与所观察到的单一示例具有相同的形状,但颜色会有所不同。换句话说,学习到形状维度的尺度参数相对较低,使模型获得了“形状偏好”,而这种偏好支持了对新类别的快速推断。
图8.3b展示了当模型被赋予一项受Smith等人(2002)研究启发的新名词泛化任务时的结果。在训练阶段,模型被展示四个类别中每个类别的两个示例。图8.3b显示了一个训练数据矩阵,其中每一列代表一个示例,各行编码这些示例的形状、纹理、颜色和大小。假设每个维度可取10种可能的值——例如,有10种可能的形状、10种可能的颜色,等等。前两列表示两个属于类别1且具有相同形状但纹理、颜色和大小不同的物体。请注意,所有属于同一类别的物体对,在形状维度上都具有相同的值。
随后,通过向模型呈现一个“dax”——一个在训练过程中未出现过的全新类别的示例——来测试模型。在图8.3中,类别标签5用于编码“dax”,测试矩阵的第一列表示新示例。接下来的三列代表三个类别标签未知的选择对象。第一个选择对象在形状上与dax匹配,第二个在纹理上与dax匹配,第三个在颜色上与dax匹配。模型被要求推断这三个选择对象中最有可能是“dax”的是哪一个。图8.3中的黑色条形显示了三个对象的相对选择概率,表明在形状上匹配的对象被推断为“dax”。白色条形总结了Smith等人(2002)报告的数据,显示接触过八个训练对象的19个月大婴儿在新名词泛化测试中也选择了形状匹配的对象。² 这一结果尤其有趣,因为未曾接触过训练对象的19个月大婴儿并不会以这种方式进行泛化;他们会在三个选择对象中随机选择。因此,Smith等人(2002)的研究支持了“形状偏好是从经验中习得的”这一观点。
图8.3a中的分层模型已在多个方面得到扩展(Kemp et al., 2007; Perfors & Tenenbaum, 2009),研究人员还提出了其他关于类别学习的分层模型(Navarro, 2006; Heller, Sanborn, & Chater, 2009; Canini, Shashkov, & Griffiths, 2010),包括专注于更丰富、更高维度的视觉类别表征的模型(Zhu, Chen, Torralba, Freeman, & Yuille, 2010; Salakhutdinov, Tenenbaum, & Torralba, 2013; Li, Fergus, & Perona, 2006; Sudderth, Torralba, Freeman, & Willsky, 2005; Lake, Salakhutdinov, & Tenenbaum, 2015)。尽管这些模型做出了各种形式的假设,但一个共同的主题是:关于类别的知识被组织成多个抽象层级,而在更抽象的层级上进行学习有助于解释人类如何能够仅凭一个或几个示例就迅速学会新的类别。
8.2 因果学习
现在考虑一个学习者必须从同一“家族”中学习多个因果系统的问题。例如,在使用过几部先前的手机后,学习者可能需要弄清楚如何使用她刚买的新手机。我们将考虑一个简单的例子,其中每个系统都可以用一个至多包含一个因果关系的简单因果模型来描述。例如,假设学习者关心降压药是否会引起头痛作为副作用。每种药物的因果模型是一个因果图模型,表明一个原因变量(服用该药物)是否概率性地导致一个结果变量(经历头痛)。
学习几种先前药物的因果模型,可以实现对一种新药物的快速学习。例如,假设学习者发现某些降压药从不会引起头痛,而另一些则大约一半时间会引起头痛。想象一下,学习者现在服用了一种新药,并经历了头痛。尽管她观察到这种新药在引起头痛方面有100%的成功率,她仍可能推断该药物大约一半时间会引起头痛。
图8.4展示了一个分层模型,可用于捕捉这类推断。第1层指定了八种降压药各自的列联数据,并显示了学习者在服用每种药物后经历头痛(e⁺)和未经历头痛(e⁻)的次数。例如,学习者曾10次服用药物 o₁,且在这10次中均未经历头痛。请注意,药物 o₁ 至 o₃ 似乎不会引起头痛,但药物 o₄ 至 o₆ 似乎大约一半时间会引起头痛。为简化起见,我们假设降压药是引起头痛的唯一可能原因——换句话说,我们假设如果学习者当天没有服药,则她当天不会经历头痛。
第2层展示了针对每种具体药物的因果模型 mᵢ。药物 o₁ 的模型不包含箭头,表明该药物不会引起头痛。药物 o₄ 的模型包含一个箭头,箭头上的数值标签表明 o₄ 是一种具有0.5因果强度的头痛生成原因。
第3层指定了一个因果图式(causal schema),用于概括关于药物的一般信息。该图式将药物组织成类别,其中 zᵢ 表示药物 i 的类别分配。该图式还包括一组 mᶜ,其中包含每个类别的因果模型。图8.4中展示了两个类别,类别 A 的因果模型 mᴬᶜ 表明该类别中的药物倾向于不引起头痛。类别 B 的因果模型 mᴮᶜ 表明属于该类别的药物大约一半时间会引起头痛。
图8.4中的层次结构可以通过定义分布将其转化为一个概率模型,这些分布规定了在给定上一层级变量的情况下,各层级变量是如何生成的。我们提供了一个基于Kemp等人(2010)提出的完整指定模型的非正式描述。我们假设,对于药物 i 的所有因果事件都是独立地从该药物的因果模型中抽取的。在第2层,药物 i 的因果模型 mᵢ 是从一个分布中抽取的,该分布确保模型倾向于匹配第3层类别 zᵢ 对应的模型。最后,在第3层,存在关于因果模型和类别分配的先验。类别分配的先验 P(z) 由中文餐馆过程(CRP;参见第9章)诱导产生,并捕捉了类别总数会很小的预期。
通过对第3层的类别分配 z 和图式层级的因果模型 mᶜ 进行积分,可以对新药物的因果模型 做出推断:
![]()
![]()
![]()
图8.4a 中的模型有助于解释:学习多个因果模型的结构如何支持对新因果模型结构的快速推断。分层贝叶斯模型还被应用于其他几种因果学习问题(Hagmayer & Mayrhofer, 2013)。Lucas 和 Griffiths (2010) 开发了一个分层模型,有助于解释人们如何学习因果关系的功能形式——例如,人们如何学习多个原因是以合取关系(仅当所有原因都存在时才产生效果)还是析取关系(只要至少一个原因存在即产生效果)相结合的;Lucas, Bridgers, Griffiths, 和 Gopnik (2014a) 在发展心理学背景下探讨了相同的思想。Goodman, Ullman, 和 Tenenbaum (2011) 描述了一个分层模型,有助于解释学习者如何理解“因果干预”这一抽象概念。在所有这些案例中,分层模型都有助于解释抽象因果知识是如何习得的,以及这种知识如何塑造人们对新因果系统的快速推断。
8.3 属性归纳
作为我们分层贝叶斯推断的第三个例子,考虑这样一个问题:学习者发现某个领域中的一个或多个成员具有一种新属性,并必须决定如何将该属性扩展到该领域的其余成员。例如,已知马携带酶X132,那么牛也携带这种酶的可能性有多大(Rips, 1975; Osherson, Smith, Wilkie, Lopez, & Shafir, 1990)?尽管学习者可能对酶X132知之甚少,但她之前曾观察过马和牛的许多其他特征,注意到马和牛共享其中许多特征,这表明它们很可能都携带酶X132。本节描述了一个分层模型,用于捕捉这类推断,并有助于解释关于一组对象属性的学习如何支持对这些对象新属性的快速推断。
![]()
![]()
![]()
![]()
![]()
其中 P(enew∣dnew,S)在方程 (8.8) 中定义。该积分可通过使用 MCMC 方法从分布 p(S∣d1,…,dn,dnew)中抽取树样本进行近似(Huelsenbeck & Ronquist, 2001)。或者,可以识别出一棵具有高后验概率的单一树,然后利用这棵树对新属性的扩展做出预测。Kemp、Perfors 和 Tenenbaum(2004;另见 Kemp & Tenenbaum, 2009)采用了第二种策略,表明单棵树足以准确预测人类关于新生物属性扩展的推断。
图8.5中的模型假设扩展 ei是在某个真实但未知的树 S上生成的。树状结构可能有助于捕捉生物物种之间的分类关系,但在其他情境下,其他类型的结构化表征(如链式、环形或聚类集合)可能更有用。理解哪种表征最适合特定情境,有时被认为依赖于先天知识:例如,Atran(1998)认为,将生物种类组织成树状结构的倾向反映了某种先天决定的认知模块。分层贝叶斯方法通过展示一个模型如何发现最适合给定数据集的表征形式,挑战了这一结论的必然性。我们可以通过在图8.5中增加另一层级来构建此类模型,该层级指定对第4层级的先验分布。假设变量 F表示 S是一棵树、一条链、一个环,或是某种其他结构形式的实例。在给定关于可能形式假设空间的先验分布的情况下,图8.5中的模型能够同时发现最佳表征形式 F以及该形式的最佳实例 S,从而最好地解释一组观测到的属性。Kemp 和 Tenenbaum(2008)正式定义了这类模型,表明它能为多个领域选择适当的表征形式(参见图1.2中的图示)。例如,当提供有关动物及其属性的信息时,该模型会选择树状结构表征;而当提供有关最高法院法官投票模式的信息时,它则会选择线性表征(即自由-保守光谱)。
8.4 超越严格的层级结构
分层模型的关键特征在于它包含了多个抽象层级。到目前为止讨论的三个模型都是简单示例,它们还有一个共同的特性:每个模型中的变量都可以排列成一棵树,使得第 k 层(除根节点外)的每个变量仅依赖于第 k+1 层中的一个变量。然而,在许多情况下,有必要使用具有多个层级但组织方式不那么严格的形式化表示。例如,图8.5暗示生物属性是在第3层的一个树状分类体系上生成的,但某些属性(例如,“血液中含有高水平的欧米伽-3脂肪酸”)可能依赖于栖息地和食性等因素,而这些因素会跨越该分类体系(Heit & Rubinstein, 1994)。
对图8.5中模型的一个自然扩展,是在第3层引入多种结构,包括树状分类体系、食物网(Shafto, Kemp, Bonawitz, Coley, & Tenenbaum, 2008),以及按栖息地对动物进行的分类(Shafto, Kemp, Mansinghka, & Tenenbaum, 2011),并允许第2层的某一特定属性依赖于这些结构中的一个或多个。
图形模型的语言足够丰富,能够表达许多具有多层抽象但并非严格分层的模型。我们已经见过若干这样的例子。第5章中引入的主题模型表明,每篇文档中的词语依赖于两个变量:一个是文档特有的主题向量 θ,另一个是整个文档集合共享的主题集合 φ。因此,图5.9中的图形模型并不呈树状结构。图5.14a中的模型将主题模型与隐马尔可夫模型(HMM)相结合,更是明显偏离了严格的分层方法。该模型融合了一个语义模型(主题模型,即潜在狄利克雷分配)和一个句法模型(HMM),文档中的第 i 个词可能由其中任一组件生成。将这两个组件结合起来,所产生的图形模型虽具有多层抽象,却与树状结构大相径庭。
就我们的目的而言,这两个模型都可被视为分层模型,因为它们都包含了多个抽象层级。从某些角度看,“多层级建模”(multilevel modeling)或许是本章所述方法更恰当的称谓,但为了与认知科学文献保持一致,我们仍使用“分层建模”(hierarchical modeling)这一术语。
8.5 未来方向
本章所讨论的分层模型有助于解释:先前情境中的经验如何支持对新情境的快速学习。这类“学会学习”(learning to learn)最引人注目的例子可能发生在儿童早期,此时儿童正在构建抽象知识,而这些知识将成为其后续大量学习的基础。若干研究团队已指出,分层贝叶斯模型能够为认知发展提供洞见(Perfors, Tenenbaum, Griffiths, & Xu, 2011;Glassen & Nitsch, 2016;Ullman & Tenenbaum, 2020),第20章回顾了该领域的一些研究成果。然而,将这一方法应用于更广泛的发育现象,仍是未来研究的重要挑战。
学习并不会在儿童成年后停止,而是贯穿人的一生。机器学习研究者已开发出旨在模拟这种能力的终身学习(lifelong learning)模型(Thrun & Pratt, 2012),而分层贝叶斯方法为应对这一挑战提供了一条有前景的路径。原则上,分层贝叶斯框架可以无限期地持续遭遇新的学习情境,未来的研究应致力于开发能够在以年或数十年为单位的时间尺度上进行学习的模型,而非仅限于分钟、小时或天的尺度。
除了延长学习发生的时间跨度,未来的工作还应努力扩展单一分层框架所能适用的任务范围。受发展通用人工智能(artificial general intelligence)目标的启发,近期人工智能(AI)领域的研究已从仅学习单一任务的系统(例如玩Atari游戏(Mnih等,2015))转向能够学习多种任务的系统(例如玩Atari游戏、生成图像描述以及堆叠积木(Reed等,2022))。分层贝叶斯模型(Wilson, Fern, Ray, & Tadepalli, 2007)为实现类似的演进路径提供了可能性,未来研究可探索这些模型在多大程度上能够解释人类的通用学习能力。
分层贝叶斯方法面临的最后一项挑战,是与神经计算模型建立更深层次的联系。预测编码(predictive coding)理论认为,大脑区域被组织成一个层级结构,支持自下而上和自上而下的概率推断(Clark, 2013),而分层贝叶斯方法为形式化这些思想提供了自然的框架(Lee & Mumford, 2003;Friston, 2009)。当前的研究正利用分层贝叶斯模型,以更深入地理解功能异常(Williams, 2018)和正常运作的大脑中的计算机制(Rohe, Ehlis, & Noppeney, 2019)。
8.6 结论
本章开头我们提出,分层贝叶斯模型可以应对两个挑战:一是有助于解释先验分布从何而来,二是有助于解释人类如何“学会学习”(learn to learn)。我们仅部分地回应了第一个挑战。本章介绍的三个模型有助于说明关于类别、因果模型和属性的抽象知识是如何获得的,以及这种抽象知识如何诱导出先验分布,从而支持对新类别、新因果模型和新属性的快速推断。因此,我们展示了某些先验是如何被习得的;但在每种情况下,这种学习本身都依赖于某种形式的先验假设。例如,这些模型依赖于预先固定的超参数,我们也假设了每个分层模型的结构是事先已知的。当然,这些假设是可以放松的——例如,可以通过在分层模型中增加一个额外层级,为超参数引入先验分布,从而实现对超参数的学习。然而,无论我们增加多少层级,分层贝叶斯模型始终需要以某种形式的先验知识为基础。因此,这些模型的目标并非解释概率模型如何在完全不依赖任何先验知识的情况下取得成功,而是解释一个初始具备合理可视为先天(innate)的先验知识的系统,如何获得相对复杂的知识。
我们通过展示分层贝叶斯模型的上层如何捕捉跨多种情境普遍适用的知识,来回应“学会学习”的问题。在这种情况下,上层知识的获取支持了下层的快速学习,因此可被描述为“学会学习”。我们仅简要触及了分层模型在发展方面的含义,但这些模型之所以具有吸引力,部分原因在于它们提供了一种理解学习如何在人的一生中不断变化并加速的途径。
心理学家、统计学家和机器学习研究者已开发出许多本章未讨论的其他分层模型。例如,分层模型已被用于解释人们如何学习新说话者的言语特征(Pajak, Fine, Kleinschmidt, & Jaeger, 2016),如何与新伙伴建立交流惯例(Hawkins et al., 2023),如何预测从未执行过的行动结果(Gershman & Niv, 2015),以及如何习得适用于多个运动任务的抽象策略(Braun, Waldert, Aertsen, Wolpert, & Mehring, 2010)。这些模型在许多方面各不相同,但都依赖于在抽象层级结构上进行的概率推断。因此,分层贝叶斯模型再次印证了前几章所强调的一个核心主题:概率推断与结构化表征——在此即抽象层级结构——相结合所能实现的效果,远超过任一方法单独使用时所能达到的水平。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.