贝叶斯认知模型 逆向工程思维
第三章:贝叶斯推理
https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html
3.7 小结
贝叶斯推理描述了一个理性主体如何处理归纳问题。
它指明了如何将先验知识与新数据所提供的信息结合起来。
因此,它是一种理解人类认知的强大工具。通过贝叶斯模型,我们能够精确地识别出在各种情境下指导人类归纳推理的先验知识。
在最简单的情形中,只需向人们呈现一个归纳推理任务,并将其所得结论与不同先验分布下得出的结论进行比较,即可实现这一点。
这些结果有助于解释人类认知中的各种偏差,而这些偏差若无此框架则可能令人困惑。
当应用于离散假设时,贝叶斯推理帮助我们理解:离散的、符号化的结构如何能够产生连续的、渐变的泛化模式。
借助这种方法,即使仅有极少量的数据,我们也能做出有意义的推理。
只要有足够多的数据,所得模型便能从渐变的泛化过渡到对某一类别假设的确定性判断,从而准确刻画人类的归纳推理过程。
贝叶斯统计还为我们提供了刻画更复杂推理问题的工具,包括需要比较复杂度不同的假设的情形。
这类推理无需开发新方法,而是自然地通过概率论的基本原理加以处理。
其结果是对更简单解释的隐式偏好——随着本书后续章节探讨人类如何学习可能任意复杂的“世界模型”,我们将看到这种偏好发挥着日益重要的作用。
![]()
人们能够解决大量具有挑战性的归纳问题,仅凭有限的数据就能学会词语、类别、规则、因果关系等等。解决这些问题需要处理不确定性。归纳推理超越了所给信息的范围,即使我们知道永远无法绝对确定答案是否正确,仍会寻求一个合理的解答。在本章中,我们将更正式地介绍贝叶斯推理背后的思想,它为我们提供了一套强大的工具来解决这些问题。
贝叶斯推理始于这样一个观点:我们需要一个数学系统来表示不确定性——即我们对世界状态持有不同的假设,而这些假设被赋予不同程度的信念。这些信念程度量化了我们对每个假设的支持强度,表明我们认为该假设为真的可能性有多大,以及我们愿意在该假设上押下何种赌注。认知的贝叶斯模型背后的核心假设是:用概率论来表示这种不确定性是恰当的方式,这立即为我们提供了一套原则,用于回答“面对证据时,我们应如何调整自己的信念”这类问题。
我们在下一节将详细阐述这一思想,然后从对贝叶斯规则含义的探讨转向展示它如何在各种情境中得到应用。在引入新的数学概念时,我们会提供实例,说明这些概念如何用于理解人类认知的各个方面,并借鉴认知贝叶斯模型领域的现有文献。本章的重点是介绍贝叶斯统计中的关键思想——更深入、更数学化的论述可参见Berger(1993)、Bernardo和Smith(1994)以及Robert(2007)。
3.1 什么是贝叶斯规则?为何要采用贝叶斯方法?
采用贝叶斯方法需要一种信念上的飞跃。你必须愿意假设人们的信念程度可以用概率分布来表示。这意味着,对于你关于世界状态的每一个假设 h,都存在一个 h为真的概率 P(h),且该概率服从概率论的定律。更准确地说,若用 H表示所有假设的集合,则 P(h)应满足以下公理,这些公理定义了作为数学对象的“概率”:
![]()
用概率表示信念程度的一个重要结果是:对一个假设的信念增强,意味着对另一个假设(假定这些假设彼此互斥)的信念减弱。在物理学中,人们常讨论物理定律,比如动量守恒定律。该定律指出,封闭系统的总动量保持不变。例如,两个物体碰撞后,即使它们的速度发生变化,其总动量仍保持不变。由于某个假设为真的总概率为1(通过本章给出的第二条公理),我们只有一单位的概率可供分配给所有假设。因此,增加某个假设的概率必然伴随着另一个假设概率的降低。这可以被看作是一种“信念守恒定律”——无论发生什么,我们只有这么多信念可以在各个假设之间进行分配。
认为信念程度可以用概率来表示(这一概念被称为“主观概率”)在构建认知的概率模型背景下尤为重要。如果我们只想建立行为的概率模型,则无需谈论内部状态或信念程度,我们可以采用另一种概率解释(如频率主义,即概率反映的是某一事件在重复多次条件下发生的长期相对频率)。如果你接受主观概率,那么立即可以得出结论:贝叶斯规则(我们稍后将介绍)是你更新信念的方式,因为贝叶斯规则只是概率论公理的一个简单推论。因此,我们将首先探讨支持主观概率的一些论证,然后转向做出这一假设所导致的后果。关于概率的不同观点的历史视角可见于 Hacking (1975)、Stigler (1986) 和 Gigerenzer 等人 (1989),而关于主观概率论证的详细论述见 Jaynes (2003)。
3.1.1 为何接受主观概率?
关于信念程度可以用概率来表示,有两种传统的论证形式。一种论证表明,对于任何遵循某些常识性简单规则的智能体而言,这种表示是不可避免的;另一种论证则指出,如果不遵循概率公理,就会导致自身被他人利用(因此不具备适应性)。
考克斯定理(Cox’s Theorem)经典的“不可避免性”论证是考克斯定理。理查德·考克斯(Richard Cox, 1946, 1961)证明,如果你接受关于信念程度(他称之为“似然度”(plausibilities))的一些简单公理,那么这些似然度最终将等价于概率。考克斯希望似然度是实数,并且其行为方式符合所有人都认同的常识。他针对一组简单的公理证明:遵循这些公理的似然度将等价于概率。这类公理的一个例子是:一个命题与其否定命题的似然度呈反向关系。由于双重否定等于肯定,将一个陈述的似然度映射为其否定命题似然度的函数必须是其自身的反函数。概率论满足这一要求。如果我们用 ¬h(“非”h)表示除假设 h 之外的某个假设为真,那么 P(¬h) = 1 − P(h)。由于 h 等价于 ¬¬h,因此可得 P(h) = 1 − P(¬h) = 1 − (1 − P(h))。考克斯从更广泛的此类公理出发,证明了标准的概率定律可以从他的公理中推导出来。在这种观点下,概率论只不过是被恰当地形式化了的常识。
荷兰赌(Dutch Books)荷兰赌论证(Ramsey, 1926/1931;de Finetti, 1937)表明,违反概率定律会让你赔钱。该论证的基本形式依赖于买卖“彩票”的机制:你可以设定一张彩票的价格,该彩票在某个特定事件发生时向持有者支付1美元;然后另一名玩家可以选择是从你这里购买这张彩票,还是卖给你(而你必须购买他卖给你的彩票)。可以证明,这些彩票的价格应与对应事件的概率一致;因此,若你在设定价格时违反了概率论原则,就会亏钱。例如,如果只有两个可能为真的假设 h₁ 和 h₂,那么分别在 h₁ 为真和 h₂ 为真时支付1美元的两张彩票的价格之和应为1美元。如果总和小于1美元,对手就可以同时买下这两张彩票,并稳赚总价格与1美元之间的差额;如果总和大于1美元,对手就可以把这两张彩票卖给你,同样稳赚差额。类似的策略适用于所有概率公理,从而证明:任何不遵守这些公理的智能体,在类似这种赌博游戏的情境中都会亏钱。在现实中,我们下注的不仅是金钱,还有生命——因为我们根据信念选择行动,因此以符合概率公理的方式维持信念,很可能是一种适应性行为。
一种更实用的贝叶斯主义本节给出的前两种论证关注的是“人们为何应当是贝叶斯式的”。然而,要构建认知的概率模型,我们只需说服自己:假设人们是贝叶斯式的这一做法是合理的。如果人们确实如此(或确实应当如此),那么这一假设就是有根据的。这正是安德森(Anderson, 1990)“理性分析”(rational analysis)方法的核心论点——尝试从人们所面临问题的适应性解决方案出发来解释其行为,而这自然会导向贝叶斯模型。但除此之外,也可能存在其他理由来假设人们是贝叶斯式的。
一个很好的理由是:这样做很有用。只要认知的贝叶斯模型能够预测和解释行为,那么将其作为一个工作假设似乎是值得的。正如第2章所述,理性分析具有一些优势,例如能够与其他学科建立联系,并提供一种以“问题”为表述基础的人类学习描述语言,这种语言可自然地转化为机器实现。这些都是贝叶斯主义在认知分析中作为有用假设的体现:如果事实证明它能有效产生人类行为模型,其回报将是巨大的。
另一个或许不那么充分的理由是:我们希望这是真的。如果人们真的是贝叶斯式的,我们作为认知科学家的工作将变得容易得多。我们将拥有一套完整的学习理论——贝叶斯推理——而我们只需弄清楚人们所使用的假设和表征形式,该框架本身就能指导我们,告诉我们采用特定假设和表征后会得出怎样的行为预测。既然这种前景极具价值,那就值得看看这一框架究竟能带我们走多远。
3.1.2 概率论预备知识
贝叶斯推理源于一个被称为“贝叶斯规则”的简单公式。当用抽象随机变量表述时,贝叶斯规则不过是概率论的一个基本结果。在本节中,我们将简要介绍概率论背后的关键思想以及我们即将使用的相关术语。如需更详细的概率论介绍,请参阅 Pitman (1993)。
此前,我们陈述了应用于假设的概率论公理。更一般地,我们可以将这些公理应用于世界上可能发生的互斥事件。例如,如果我们抛掷一枚硬币两次,可能出现四种事件,分别对应所有可能的正反面序列:TT、TH、HT 和 HH。每个事件都被赋予一个大于或等于0的概率,且所有事件的概率之和为1。
通常,我们并不直接讨论这些“原子事件”,而是希望讨论描述事件集合的变量。例如,我们可以定义随机变量 A 来表示第一次抛硬币的结果。A 取值 H 的概率,是所有第一次抛硬币出现正面的序列的概率之和(即 P(HT) + P(HH))。A 取值 T 的概率,是所有第一次抛硬币出现反面的序列的概率之和(即 P(TT) + P(TH)),或者等价地,P(A = T) = 1 − P(A = H)。我们将使用大写字母表示随机变量,用对应的匹配小写字母表示该变量取特定值(当值未明确指定时),如 P(A = a)。当我们书写概率时,随机变量常常是隐含的。例如,P(a) 指的是变量 A 取值 a 的概率。
当我们有多个定义在同一组事件上的随机变量时,我们可以提出关于它们“联合概率”的问题。例如,我们可以用随机变量 B 来描述第二次抛硬币的结果。现在我们可以询问联合概率分布 P(A = a, B = b),也可以写作 P(a, b)。其他表示联合概率的记法包括 P(a&b) 和 P(a ∩ b),但本书中不会使用这些符号。
当我们有多个随机变量时,通常会提及单个变量的概率,例如 P(A = a) 或 P(a),这被称为“边缘概率”。这些边缘概率可以通过对其他变量的所有取值求和,从联合概率中获得(例如,P(A = a) = Σ_b P(A = a, B = b))。正如本节所呈现的概率论所有性质一样,这一点也可从公理推导而来——在此情况下,通过确认该求和正确地识别出与随机变量 A 取值 a 对应的原子事件集合即可。在我们抛硬币的例子中,我们已表明:
P(A = H) = P(HT) + P(HH),这相当于对 P(A = H, B = b) 中所有 b 的取值求和。这种“消去”某个变量的过程称为“边缘化”。
当有两个或更多随机变量时,我们还可以提出关于“条件概率”的问题。例如,我们可能想问:在第一次抛硬币出现正面之后,第二次抛硬币出现正面的概率是多少?直观上,看到一次正面可能会让你觉得再出现正面的可能性更大,尤其是如果你在抛之前没有仔细检查硬币的话。我们可以将这个条件概率写作 P(B = b | A = a) 或 P(b | a),其中竖线 “|” 读作“给定”。因此,P(b | a) 表示在已知 a 发生的前提下,b 发生的概率。我们也可以说 P(b | a) 是 b “以 a 为条件”的概率。
条件概率的计算方法是:将我们的世界限制在与 a 发生一致的原子事件范围内,并在这些事件之间重新分配概率。在第一次抛硬币出现正面后,只剩下两个可能的事件:HT 和 HH。然而,这些事件的概率不再总和为1。为了修正这一点,我们让每个事件的新概率与其原始概率成比例,但乘以一个系数,使所有剩余可能性的概率之和为1。在计算 P(b | a) 的情形下,这相当于将每个概率乘以 1/P(a),因为 P(a) 是所有剩余可能事件的概率之和。最后,我们计算在这个新世界中 b 发生的概率。这个概率与 P(a, b) 成比例,因此它变为:
![]()
这等价于在给定事件 a 发生后,相关原子事件集合在重新分配概率后的总和。
条件概率为我们提供了一种描述随机变量之间关系的方式。例如,如果我们完全确信所抛掷的硬币是公平的,我们可能会认为第二次抛硬币出现正面的概率恰好为0.5,无论第一次抛掷的结果如何。在这种情况下,第二次抛硬币出现正面的条件概率与边缘概率相同。我们可以通过说两个随机变量 A 和 B 相互独立来捕捉这一现象。“独立”意味着一个随机变量的条件概率不受另一个随机变量取值的影响,因此 P(b | a) = P(b),且 P(a | b) = P(a)。
我们可以对公式 (3.1) 进行重新整理,推导出概率论中一个重要的原理——联合分布的分解法则,有时也称为“链式法则”。这使我们能够将两个随机变量 A 和 B 分别取特定值 a 和 b 的联合概率 P(a, b),写作:在 A 取值 a 的条件下 B 取值 b 的条件概率 P(b | a),与 A 取值 a 的边缘概率 P(a) 的乘积:
P(a, b) = P(b | a) P(a)。 (3.2)
直观上,我们通过将事件 a 发生的概率乘以“在 a 发生的前提下事件 b 发生的概率”,得到 a 和 b 同时发生的概率。在我们的硬币例子中,我们通过将第一次抛硬币出现正面的概率乘以“在第一次出现正面的前提下,第二次抛硬币出现反面的概率”,得到第一次抛硬币正面、第二次抛硬币反面的概率。
![]()
3.1.3 理解贝叶斯规则
在一个我们所关心的事件仅仅是抛硬币正反面的世界里,贝叶斯规则看起来并不像一个特别震撼的结果。它只是提供了一种简单的方法,用其他概率量(条件概率和边缘概率)来计算某些概率量(条件概率)。但如果我们现在考虑一个更丰富、更复杂的世界——其中我们推理的对象对应着假设的真假,以及可能为这些推理提供信息的数据——那么“信念程度应被表示为主观概率”这一假设,便将贝叶斯规则从概率演算中的一个简单重言式,转化为对信念如何随经验改变的强大描述(即一种数学化的学习理论)。
假设学习者为属于集合 ℋ 的假设 h 分配概率 P(h)。我们将这些称为“先验概率”,因为它们是在观察数据之前所赋予的概率。接着,学习者观察到数据 d,并试图计算在这些数据条件下应分配给各假设的信念程度,即 P(h|d)。如果信念程度遵循概率公理,则这些“后验概率”应通过应用条件概率公式,在公式 (3.4) 中以 d 代替 a、h 代替 b 来计算,从而得到:
![]()
![]()
![]()
其中归一化常数被吸收到比例关系中。这清楚地表明,后验概率实际上只是先验概率根据每个假设对观测数据的预测程度所进行的修正。
决定后验概率的两个因素——似然和先验——在许多问题中都有非常自然的解释。似然反映了假设与数据之间的拟合程度,而先验则表示假设的事前合理性(对于频率较低、结构复杂或看起来明显不合理的假设,其先验可能较低)。这两个因素对结论的贡献是相当自然的,在各种情境下都符合直觉。回到第1章引入的一个例子:如果你看到约翰咳嗽(你的数据 d),你可能会考虑三种关于咳嗽原因的假设:感冒(h₁)、肺部疾病(h₂)或胃灼热(h₃)。你可能会基于“拟合度”排除胃灼热,因为它几乎不会增加咳嗽的可能性。感冒和肺部疾病都能很好地解释咳嗽——它们都会提高咳嗽的概率——但二者在“事前合理性”上有所不同。通常,感冒比肺部疾病更常见,因此你更可能选择感冒作为解释咳嗽的假设。然而,如果你正路过一家医院,看到约翰在院内咳嗽,这两种假设的事前合理性可能会发生变化。所有归纳推理都需要同时考虑拟合度和事前合理性。贝叶斯规则只是用概率论的通用语言告诉你如何将这两者结合起来得出结论,并确定每个因素的影响。
在认知科学背景下,先验成为描述学习者的归纳偏见的一种有用方式——即当两种假设与数据同样一致时,促使他们选择其中一个而非另一个的因素(Mitchell, 1997)。从公式 (3.7) 可以清楚看出,如果两个假设的 P(d|h) 相同,则具有更高先验概率的那个假设会获得更高的后验概率。认知科学中的许多问题都可以归结为关于归纳偏见的问题,包括以下这些:
儿童要习得语言,学习过程需要哪些约束?
哪些类型的范畴结构容易或难以学习?
人们是否偏好更简单的假设?
人们对因果关系强度抱有哪些预期?
在随机数据中,人们倾向于识别出哪些类型的结构?
因此,认知的贝叶斯模型在回答这些问题时尤其有效。理性假设在此也很有用,因为我们可以这样说:“给定这些数据,以及这些关于数据解释的假设(即似然 P(d|h)),一个理想的学习者只有在具备具有这些特性的归纳偏见时,才能得出这一结论。”
在认知科学中讨论先验时,人们很容易将先验等同于学习的先天约束。这确实是使用贝叶斯模型的一种方式,但并非思考先验的唯一方式。事实上,一个假设的先验概率反映了学习者所知道的一切——除了当前数据 d 之外的所有知识。因此,先验可以通过经验习得,并能捕捉学习者在其他领域可能获得的知识的影响。一个简单的例证是“今天的先验就是昨天的后验”这一思想。假设你想评估某个假设 h,你观察到两份数据 d₁ 和 d₂。如果这两份数据在给定 h 的条件下相互独立,那么我们可以写作:
P(h | d₁, d₂) ∝ P(d₁ | h) P(d₂ | h) P(h) (3.8)
因为根据分解法则,P(d₁, d₂ | h) = P(d₁ | d₂, h) P(d₂ | h),而独立性假设意味着 d₁ 的条件概率不随 d₂ 的取值改变,即 P(d₁ | d₂, h) = P(d₁ | h)。又因为我们已知 P(h | d₁) ∝ P(d₁ | h) P(h),我们可以将其重写为:
P(h | d₁, d₂) ∝ P(d₂ | h) P(h | d₁), (3.9)
其中我们只是调整了比例常数。因此,如果你昨天看到 d₁ 并将你的假设分布从 P(h) 更新为 P(h | d₁),然后今天看到 d₂,你可以直接以 P(h | d₁) 作为新的先验,应用贝叶斯规则来计算新的后验 P(h | d₁, d₂)。任何先验分布都隐含地假定了一套背景知识——这些知识是在我们所有“昨天”中积累起来的数据。
3.2 具有离散假设集的贝叶斯推理
贝叶斯规则适用于任何形式的数据 d 和假设 h。然而,在假设构成离散集合的情形下最容易理解。我们将在考虑连续假设的贝叶斯推理之前,详细探讨这一情形。我们将从两个假设开始,再考虑如何推广到多个假设。
3.2.1 比较两个离散假设
贝叶斯推理的数学原理最容易在比较两个假设的情境下引入。例如,想象有人告诉你一个盒子里装有两枚硬币:一枚正面朝上的概率为50%,另一枚正面朝上的概率为90%。你选择一枚硬币并抛掷十次,得到序列 HHHHHHHHHH。你选的是哪一枚硬币?如果你得到的是 HHHTHTTTHT,答案会如何变化?
为了用贝叶斯术语形式化这个问题,我们需要确定假设空间 ℋ、每个假设的先验概率 P(h),以及在每个假设下产生数据的概率 P(d|h)。我们有两个硬币,因此有两个假设。如果我们用 θ 表示硬币出现正面的概率,则 h₀ 是 θ = 0.5 的假设,h₁ 是 θ = 0.9 的假设。由于没有理由认为其中一枚硬币比另一枚更可能被选中,合理假设它们的先验概率相等:P(h₀) = P(h₁) = 0.5。由一枚正面概率为 θ 的硬币生成包含 n_H 个正面和 n_T 个反面的特定抛掷序列的概率为:
![]()
![]()
![]()
![]()
![]()
![]()
3.2.2 一个例子:心理先验
贝叶斯规则最早被用作人类归纳推理模型的一些研究,集中于两个假设的情形(参见 Peterson & Beach, 1967 的综述)。该领域许多文献的关注点在于:人们更新信念的速度是否如贝叶斯规则所建议的那样迅速。这类研究通常采用这样的任务:人们需推理从哪个瓮中抽取了球,而这些瓮产生不同颜色球的概率已知。在这一情境下,人们更新信念的速度往往比贝叶斯规则所指示的更慢——这种现象被称为“保守主义”。然而,双假设设定不仅允许我们测量信念更新的“速率”,还涉及其起点——即人们为不同假设分配的先验概率。这在“逆向工程”心智的研究背景下尤为重要,因为它展示了我们如何利用贝叶斯模型识别人们的归纳偏见。
作为对人们如何判断某事是“巧合”的贝叶斯分析的一部分,Griffiths 和 Tenenbaum (2007a) 开展了一项研究,要求人们就两种情境之一做出判断。在一种情境中,研究基因工程的科学家正在测试影响大鼠性别的药物;在另一种情境中,研究超自然现象的科学家正在测试声称拥有心灵致动能力的人。参与者会看到来自这些研究的所谓数据,包括表格,显示在100只接受药物处理的大鼠中有多少只是雄性,或在100次抛硬币中出现了多少次正面(在潜在“通灵者”存在的情况下)。接着,他们被要求针对每组试验做出两项判断之一:一组人(在“巧合”条件下)评估这些结果是“纯属巧合”还是为该现象提供了“有力证据”;另一组人(在“后验”条件下)则使用1–10分量表评估他们认为药物有效或受试者具有通灵能力的可能性。
对于 Griffiths 和 Tenenbaum (2007a) 来说,关键问题是这两种判断是否相关——他们在检验这样一个理论:我们对“巧合”的感知反映的是,在某种关系事先极不可能的情境下,我们对该潜在因果关系的推理。如果确实如此,那么“巧合”判断应与该关系的后验概率紧密(反向)相关。正如你可以在图3.1中看到的,这两种判断确实高度相关(呈反向关系)。
![]()
然而,这些数据也可用于说明贝叶斯建模的一个关键特性:如果我们知道人们所看到的数据以及他们得出的结论,我们就可以反向推导以推理他们的先验。在这种情况下,有两种假设:要么数据纯属偶然(雄/雌或正/反面出现的概率为0.5),要么背后有其他机制在起作用(概率不是0.5)。本章稍后我们将展示如何在这些不同假设下计算观测数据的概率,但目前的关键点是,我们实际上可以计算这些概率,从而计算出对数似然比。利用公式(3.13)中引入的sigmoid函数 s(·),我们可以将特定假设 h₁ 的后验概率写作:
![]()
![]()
3.2.3 比较多个离散假设
贝叶斯规则自然可以扩展到比较多个离散假设的情形。想象一下,我们的目标不是仅仅评估关于一枚硬币性质的两个假设,而是四个:h₁ 是“一枚公平的硬币”,h₂ 是“一枚总是正反面交替出现的硬币”,h₃ 是“一枚大多数时候出现正面的硬币”,h₄ 是“一枚总是出现正面的硬币”。
在观察到某一特定正反面序列 d 后,我们可以通过应用公式 (3.5) 来计算这些假设上的后验分布。例如,我们可能观察到序列 HHTHTTTTH。在 h₁ 下,该序列的概率为 P(d|h₁) = 0.5⁸。若将“总是”理解为概率 0.99,并假设交替序列可从正面或反面开始且概率相等,则在 h₂ 下该序列的概率为 P(d|h₂) = 0.5 × 0.01 × 0.99³ × 0.01² × 0.99 = 0.5 × 0.01³ × 0.99⁴。如果“大多数”表示概率 0.85,则在 h₃ 下有 P(d|h₃) = 0.85⁴ × 0.15⁴。最后,在 h₄ 下,P(d|h₄) = 0.99⁴ × 0.01⁴。如果所有这些假设具有相等的先验概率,那么贝叶斯规则只需将每个似然值除以它们的总和,从而得到 h₁(公平硬币)的后验概率为 P(h₁|d) = 0.937——这是一个相当有力的理由,支持“硬币是公平的”这一信念。当然,其他序列会得出不同的推理。
贝叶斯推理并不仅仅是识别最可能的假设。它也是一种做出有根据预测的工具。在观察到序列 d₁ 后,我们可以对接下来可能观察到的序列 d₂ 做出预测。应用概率演算的规则,我们可以将这一概率写作:
![]()
其中,等式右侧第一项是该假设与新数据 d₂ 的似然,第二项是给定 d₁ 后假设 h 的后验概率。分布 P(d₂|d₁) 被称为“后验预测分布”:即根据后验分布所表达的信念,我们对新数据所做的预测。在我们的抛硬币例子中,观察到序列 HHTHTTTTH 后,h₁ 预测下一次为正面的概率为 0.5,h₂ 预测为 0.01,h₃ 预测为 0.85,h₄ 预测为 0.99。应用公式 (3.17) 得到正面的后验预测概率为 0.522——比一枚公平硬币预期的概率略高一点。
后验预测分布具有直观的解释:它是通过将每个假设所作的预测按其后验概率加权平均后得到的分布。正因如此,公式 (3.16) 和 (3.17) 所示的计算被称为“假设平均”(hypothesis averaging)。在认知科学中,“假设平均”是一个有趣的概念:它表明一组各自做出确定性预测的假设,可以被平均为一组连续性的预测。这与关于人们是否形成以离散规则表达的假设、还是以更连续的数量来表征信息的争论相关:即使人们确实使用离散规则,但若他们对哪个规则适用存在不确定性,则仍可能表现出看似连续的行为模式。
3.2.4 一个例子:数字游戏
我们现在可以更详细地重新审视第1章介绍的一个例子。想象你正在试图弄清楚一个计算机程序是如何工作的。不幸的是,你无法访问它的源代码。该程序针对输入的数字回答“是”或“否”,取决于这些数字是否满足某个简单概念。一些可能的概念包括:“是奇数”、“介于30和45之间”、“是3的幂”或“小于10”。为简化起见,你可以假设只考虑100以内的数字。
当面对这一任务时,人们的行为会呈现出一些有趣的模式(Tenenbaum, 1999; Tenenbaum, 2000)。例如,若程序对数字60回答“是”,人们通常愿意猜测程序也会对附近的数字(如66)和较远的数字(如90)回答“是”。然而,随着获得更多信息,他们会变得更加确信自己的概括,而由此产生的概括模式可能看起来像确定性规则(试想一下,如果你发现程序对60、80、10和30都回答“是”,你会如何概括;或者,如果机器接受60、52、57和55,就会出现偏向邻近数字的更连续的梯度)。重要的是,这两种概括模式都可以用贝叶斯推理加以解释。
在这种被称为“数字游戏”的情境中,学习者可以设想许多关于程序所接受数字的不同假设。为简化起见,我们仅考虑两类假设:简单的数学属性(如“3的倍数”或“2的幂”),以及量级属性(如“介于20和40之间的数”或“介于57和67之间的数”)。每个假设都可以表示为1到100之间整数的一个子集。在Tenenbaum的模型中,有相当大数量的量级假设(5,050个,对应所有上下界在1–100范围内的区间),以及相对较少的数学假设(对应最多到12的倍数、幂、奇数、偶数、平方数、立方数、质数以及末位数字相同的数)。要将贝叶斯规则应用于这些假设,我们需要指定两个要素:似然和先验。
通过采样定义似然 Tenenbaum 提出了一个关于人类在数字游戏中行为的贝叶斯模型,并对似然和先验做出了具体设定。似然被定义为:学习者将程序所接受的数字样本视为从符合该假设的数字集合中独立随机抽取的样本。这意味着,对于任何假设,其似然值与该假设所对应的相容数字子集的大小成反比——因为每个数字被抽中的可能性是均等的。例如,在“程序接受57至67之间所有数字”(共11个数字)的假设下,观察到其中任何一个数字作为样本的概率为1/11。形式上,我们可以将任意假设 hᵢ 在程序接受 n ≥ 1 个示例数字序列 X 下的似然写作:
![]()
![]()
![]()
关于数字集合的先验分布 先验概率在解释人们所考虑的概念中也扮演着重要角色。在规模原则下,评估一个假设时唯一重要的因素是它所选出的数字集合的大小。这意味着,像“除50和20以外的10的倍数”这样只选出8个数字的假设,理论上应比“10的倍数”更受青睐。但为什么这种想法看起来不对呢?答案在于先验分布——它表达了人们愿意考虑哪些类型的概念。复杂的假设,如“除50和20以外的10的倍数”,应当被赋予极低的先验概率(尽管也许并非完全为零——如果你反复观察到除了50和20之外的所有10的倍数,你可能会被说服!)。
Tenenbaum 通过假设两种类型的假设——数学属性和量级区间——被赋予不同的先验概率,来设定先验分布 P(hi)。这可以用“层级先验”(hierarchical prior)来描述,它将指定一个假设概率的问题分解为在不同抽象层次上的一系列选择。在 Tenenbaum 使用的最简单先验中,某个概率(记作 λ)被分配给“概念是数学属性”的情形,而剩余概率(1−λ)被分配给“概念是量级区间”的情形。每个类别内特定假设的概率——我们可以称之为“假设子空间”——随后通过将该子空间的概率均匀分配给其中所有假设来计算。Tenenbaum 假设对于数学属性,概率是均匀分配的,即每种数学属性获得相同的概率;而对于量级区间,则基于其规模大小分配概率(采用一个参数的 Erlang 先验,灵感来自 Shepard, 1987)。由于在此模型中量级假设的数量远多于数学假设(大约多出100倍),因此任何单个量级假设所分配到的先验概率通常远低于任何单个数学假设。这也可被视为规模原则的一种变体,
但如今应用于先验层面:其他条件相等时,属于更小、约束更强的假设子空间的假设,其先验概率更高,相应地也会获得更高的后验概率。
![]()
![]()
这等价于使用公式 (3.17) 来计算后验预测分布 P(d₂|d₁),其中 d₁ 现在是观测到的正例编号序列 X,而 d₂ 是由计算机程序选取的概念 C 所编码的二元命题 y ∈ C(即判断任意数字 y 是否属于概念 C)。关键在于,每个数字游戏假设 hi 关于 y 的预测,或公式 (3.19) 中的 P(y ∈ C | hi),仅取决于 y 是否属于 hi 所选出的数字子集,其值仅为 1 或 0。⁶
图 3.2 展示了在数字游戏中人类的判断以及模型对多个观测序列的预测 P(y ∈ C | X)。该模型在定性和定量上均很好地捕捉了人类的泛化行为:贝叶斯模型的后验预测分布(公式 3.19)解释了人类平均判断中超过 90% 的方差。定性行为尤其具有启发性,既揭示了人们如何从一个或几个例子中泛化概念,也揭示了一个统一的贝叶斯模型如何以原则性的方式捕捉这些行为差异。I 类序列仅包含一个例子,要么是 16,要么是 60:在此情况下,人类和贝叶斯模型的泛化都较为弥散,代表了许多可能解释单个观测数据点的假设,以及由此产生的相对平坦的后验分布。在 II 类序列中,第一个例子之后又呈现三个额外的例子,以暗示明确的规律性,例如 16、8、2 和 64,或 60、80、10 和 30:此时,人类和贝叶斯模型均收敛于一种清晰的规则式泛化模式。最后,在 III 类序列中,呈现不同组的三个例子,以暗示更偏向幅度的概念,例如 16、23、19 和 20,或 60、52、57 和 55:正如所预测的,此时人类和贝叶斯模型的泛化更像是一种基于幅度的梯度函数,随着距离示例所覆盖范围的增大而平滑递减。
![]()
图 3.3 说明了这些规则式或相似性式的泛化模式如何全部从贝叶斯模型中自然产生,反映了这些简短观测序列在假设空间上所诱导出的后验分布具有定性上不同的形状。最初,仅有一个例子(16 或 60)时,许多假设与数据一致且具有不可忽略的后验概率,包括数学属性和幅度属性(图 3.3a)。数学假设得分更高,因为它们的先验概率更高(由于这类假设的数量远少于其他类);在每一类内部,较小的假设也因使用了似然中的“大小原则”而得分更高。
![]()
在观察到更多例子之后,泛化会根据例子的分布情况而收紧。若给出的例子符合某种规律性(例如“2 的幂次”),而该规律比任何其他与相同数据一致的假设都更具体(即范围更小),则该假设的后验概率会高得多,并主导后验预测分布。此时泛化表现为全有或全无式,严格遵循该规则(图 3.3b)。相比之下,对于落入一个较小幅度区间(如 16–23 范围)的一组数字,许多相似的假设——具有非常相近范围和大小的区间——均与之相符,但它们不符合任何简单的数学属性。这些假设拥有相似的先验概率和基于大小的似然值,从而导致非常接近的后验概率。应用假设平均法后,便会产生一种平滑的预测梯度:随着所考虑区间的增大,预测强度从观测到的例子处逐渐减弱(图 3.3c)。尽管每个假设本身是离散的,但由于后验分布较宽广,以及假设平均所体现的后验加权投票行为,这种连续性的泛化模式仍然会出现。
虽然我们很少面临破译计算机程序偏好的问题,但数字游戏的结构却与许多现实中的归纳问题相似。或许最明显的例子是词汇学习:当儿童学习一个新词时,她往往是从正例出发(“那是一只狗”)。弄清楚哪些对象可以被赋予这个标签,类似于探测我们假设的计算机程序的反应,也可以用同样的方式处理:假设是对象集合,而观测是从这些集合中采样得到的。Xu 和 Tenenbaum(2007)表明,类似的贝叶斯模型可用于解释成人和儿童在实验室词汇学习任务中的推理,包括类似地呈现出由单个例子引发的渐进式相似性泛化模式,以及在仅几个例子后便收敛至基于最具体一致假设的全有或全无式泛化。这一例子将在第 1 章中进一步详细讨论。
3.2.5 使用线性代数实现离散贝叶斯推理
在数字游戏中,具有多个离散假设和离散观测的贝叶斯推理可以通过一些线性代数高效实现。在本节中,我们将简要概述如何做到这一点,因为这也可以在其他设置中作为一个有用的策略,通过将更复杂的问题简化为离散假设集来近似。这也为我们提供了一个机会,介绍一些我们将在本书后面使用的线性代数符号。有关本书中使用的线性代数方面的可访问介绍,请参阅Jordan(1986)。
我们将使用粗体大写字母(例如,M)表示矩阵,粗体小写字母(例如,v)表示向量(默认为列向量),Mᵀ 和 vᵀ 分别表示这些矩阵和向量的转置。Mv 表示矩阵 M 与向量 v 的乘积,vᵀw 表示向量 v 与 w 的内积,vwᵀ 表示外积。v ⊗ w 表示哈达玛积(逐元素相乘),其结果是一个向量,其第 i 个元素对应于 vᵢwᵢ。
如果我们有一个离散的假设空间和一个离散的可能观测集合,则似然函数可以表示为矩阵 L 的形式,其中每一行对应一个可能的观测值(在数字游戏中,就是一个数字),每一列对应一个假设。该矩阵中的每个元素 Lⱼᵢ 表示在假设 i 下观测到 j 的概率,即 P(d = j | hᵢ)。在数字游戏的情形中,这可以通过首先构建矩阵 H 来实现,H 中元素 Hⱼᵢ 表示数字 j 是否属于假设 i:若 j ∈ hᵢ,则 Hⱼᵢ = 1,否则为 0;然后对各列求和以得到每个假设的大小。接着,通过将 H 中的每个元素除以对应假设 hᵢ 的大小,即可得到似然矩阵,即 Lⱼᵢ = Hⱼᵢ / |hᵢ|。
先验分布可表示为一个行向量 p,其中 pᵢ = P(hᵢ)。贝叶斯推理即是对该向量进行更新的过程。在观察到包含观测值 j 的数据后,后验分布 p 更新为 p = L⁽ʲ⁾ ⊗ p,其中 L⁽ʲ⁾ 是矩阵 L 的第 j 行。
这使得向量 p 的每个元素变为 Lⱼᵢpᵢ,等价于 P(d = j | hᵢ)P(hᵢ)。为完整应用贝叶斯规则,我们通过将 p 的各元素除以其总和来重新归一化 p。此过程可对每个观测值重复进行。每次观测后都进行归一化并非必要——可以在所有观测完成后,在最后一步再进行归一化。后验预测分布则由矩阵乘积 Lpᵀ 给出。
若仅有少量观测值,这种实现方式是可行的;但随着观测值增多,Lⱼᵢ 项的乘积可能接近数字计算机的数值极限。因此,通常更安全的做法是使用对数概率实现概率模型(参见图 3.4)。在这种情况下,我们令 Lⱼᵢ = log P(d = j | hᵢ),pᵢ = log P(hᵢ)。在观察到 j 后,我们执行更新 p = L⁽ʲ⁾ + p。当我们准备计算后验分布时,需要从对数概率转换回普通概率并归一化结果。第一步是从 p 的各个元素中减去最大值,以避免从对数概率转换回普通概率时发生数值下溢。然后,我们对其进行指数运算并归一化,从而得到 P(hᵢ | d) ∝ exp{pᵢ}。这一“指数化-再归一化”过程也被称为 softmax 函数,它将 sigmoid 函数推广到了假设数量多于两个的情形。
![]()
3.3 具有连续假设空间的贝叶斯推理
当我们希望推理连续量时,我们仍可使用贝叶斯规则,但需用概率密度(probability densities)来表示相关分布。对于连续随机变量,再谈论该变量取某一特定值的概率已无意义,因为任何这样的值的概率都变得无穷小。相反,我们讨论的是在某一特定值处的概率密度。我们将解释这一概念,然后转向一些具有连续假设空间的贝叶斯推理的应用。
3.3.1 概率密度
为了直观理解为何我们需要使用概率密度来描述连续量上的分布,可以想象将 0 到 1 之间的线段划分为 10 个区间:一个从 0 到 0.1,一个从 0.1 到 0.2,依此类推。我们可以为每个区间分配相等的概率——即均匀分布——因此每个区间的概率为 0.1。现在,用同样的方法处理 100 个区间,从 0 到 0.01、0.01 到 0.02,依此类推。每个区间的概率将是 0.01。如果我们每次都将区间的数量增加 10 倍,每个区间的概率会变得越来越小。
现在,与其关注每个区间的概率(即每个区间的“质量”),不如关注密度。将概率除以区间的宽度。当我们的区间宽度为 0.1 单位且包含 0.1 单位的概率质量时,密度为 1。当它们的宽度为 0.01 单位且包含 0.01 单位的质量时,密度仍然是 1。即使区间变得越来越小,概率密度保持不变。
我们可以通过为区间 [0, 1] 中的每个点 x 分配概率密度 1 来定义该连续区间上的均匀分布。我们会将其写作 p(x) = 1,使用小写字母以区别于我们之前使用的表示概率质量函数的大写 P(x)。概率密度函数也可用于反向计算不同事件的概率。例如,若我们想计算 x 落入范围从 0 到 0.1 的某个区间的概率,我们可以通过对该区间上的概率密度进行积分来实现:
![]()
对于任意区间,都可以进行类似的计算——概率密度函数告诉我们如何计算概率质量。关于概率密度及其性质的更多内容,参见 Pitman(1993)。在我们将使用概率密度的情境中,它们遵循与本章迄今所用相同的联合概率、条件概率和边缘概率规则,同样适用于边缘化、链式法则等操作。唯一的区别在于,我们将对随机变量的求和替换为积分。因此,对于一个连续的假设集合 θ,贝叶斯规则变为:
![]()
其中 x 是一些连续数据。
接下来的几个部分将通过使用贝叶斯定理处理连续量的例子来说明贝叶斯推理背后的一些一般原则。第一个例子是推理比例的情况。
3.3.2 估计硬币的偏差
![]()
![]()
![]()
![]()
最大似然估计的第二个问题是,它没有考虑我们可能拥有的关于 θ 的其他知识。这很大程度上是设计使然:历史上,最大似然估计及其他经典统计方法被推崇为“客观”程序,即不依赖先验概率的方法——而先验概率被认为本质上是主观且不可消除的。尽管在某些科学情境中追求客观性可能是可取的,但智能主体通常确实能获得相关且强大的先验知识,并利用这些知识从稀疏和模糊的数据中做出比仅靠数据本身所能支持的更强有力的推理。例如,给定由一枚看似正常、随机选择的硬币抛出的序列 HHH,许多人仍会认为该硬币产生正面的概率约为 0.5——或许是因为我们对大多数硬币(至少近乎)是公平的有着强烈的先验预期。
贝叶斯方法 最大似然估计的上述两个问题,均可通过采用贝叶斯方法推理 θ 来解决。如果我们假设 θ 是一个随机变量,则可以应用贝叶斯规则得到
![]()
因为 θ 的唯一有效取值范围是 [0, 1]。这个积分在直观上与离散假设集下贝叶斯规则的分母完全相同,即对所有假设上的先验与似然乘积求和。
θ 上的后验分布比单一估计值包含更多信息:它不仅指明哪些 θ 值是可能的,还表明对这些值存在多大程度的不确定性。将该分布压缩为一个单一数值会丢失信息,
因此贝叶斯主义者倾向于尽可能保留完整的分布。然而,通常有两种方法用于从后验分布中获得点估计(即单一数值)。第一种方法是最大后验概率(MAP)估计:选择使后验概率最大的 θ 值,如公式 (3.26) 所示。第二种方法是计算所关注量的后验均值:即所有可能取值的加权平均,权重由后验分布给出。例如,硬币偏置 θ 的后验均值按如下方式计算:
![]()
在抛硬币的情形中,后验均值也对应于后验预测分布:即在给定已观测到的结果序列的前提下,下一次抛硬币出现正面的概率。
那么,我们应当使用哪种估计——MAP 还是均值?正确的选择取决于所解决的问题,这一点我们将在第 7 章中再次讨论。如果错误估计会因估计值与真实值之间的平方差而受到惩罚,则均值是最优估计量。如果唯一重要的是最大化获得正确答案的概率,则 MAP 估计是最优的。⁷
3.3.3 设定先验
不同的先验选择 p(θ) 将导致关于 θ 值的不同推理。第一步可能是假设 θ 上的均匀先验,即对 θ 在 0 到 1 之间的所有取值,p(θ) 都相等(这是我们熟悉的概率密度函数,其中当 θ ∈ [0, 1] 时,p(θ) = 1)。结合这种 p(θ) 的选择和公式 (3.10) 中的伯努利似然函数,公式 (3.26) 变为
![]()
其中分母就是公式 (3.26) 中的积分,我们需要计算该积分。
计算该积分的关键步骤在于认识到它具有一个标准形式,即所谓的贝塔函数(beta function)的定义。贝塔函数记作 B(r, s),其中 r 和 s 是两个参数,其定义为:
![]()
尽管也存在其他几种等价的积分形式(它们是变量替换后的结果)。贝塔函数可以用其他函数来表示,其中一种最有用的形式是用伽马函数(gamma function)表示:
![]()
![]()
![]()
![]()
![]()
最后,我们还可以定义一个先验分布,它倾向于非常小或非常大的θ值。在最一般的情况下,我们可以采用Beta(α, β)先验,其中α和β是(0, ∞)中的实数。观察到nH次正面和nT次反面的结果是后验分布为Beta(nH + α, nT + β)。对于α和β小于1的值,先验倾向于θ值接近0和1(你可以检查在这些值时密度趋于无穷大)。这个先验在“虚拟示例”方面更难解释。如果你计算后验均值或后验预测分布,α和β仍然会为nH和nT增加分数,但计算MAP估计(标准后验参数化)需要考虑边界条件(即p(θ|x)在0和1处的值),这可能很复杂,只是退化为最大似然估计。
3.3.4 共轭先验
我们对有信息先验的抛硬币分析有两个更普遍的兴趣特征。首先,先验和后验是用相同形式的分布指定的(都是Beta分布)。其次,先验的参数vH和vT,以及“虚拟示例”的正面和反面,只是简单地加到nH和nT的实际示例中以产生后验,就像真实和虚拟示例都已被观察到的真实数据集一样。这些两个属性都不是偶然的:它们定义了一类称为共轭先验的先验。似然性决定了对于给定问题是否存在共轭先验,以及先验将采取的形式。我们在本节中给出的结果利用了Beta分布是[0, 1]上的伯努利或二项式似然的共轭先验这一事实(方程3.10)——[0, 1]上的均匀分布也是Beta(1, 1)。共轭先验存在于许多常用于概率模型的分布中,如高斯、泊松和多项分布,大大简化了许多贝叶斯计算。使用共轭先验,后验分布可以解析计算,先验的解释作为贡献虚拟示例是直观的。我们将在本章后面讨论其他分布的贝叶斯推理时讨论共轭先验。
当然,共轭先验不能捕捉人们拥有的所有先验知识,即使在像抛硬币这样简单的情况下也是如此。想象一下看到一枚硬币被抛10次,出现4次正面和6次反面。似乎合理地猜测正面的概率大约为0.5,与具有大量相等数量虚拟正面和反面的共轭先验一致。但如果你看到一枚硬币被抛10次,每次都出现正面,你可能不会有相同的概率正面的估计,尽管一个强共轭先验仍然会倾向于接近0.5。如果你看到相同的硬币再抛10次,你可以相当有信心地认为它严重偏向——甚至可能是一枚双正面硬币。
这个例子说明,当我们提出使用共轭先验——并将其解释为虚拟样本(virtual examples)时——我们通常试图近似某种其他更丰富、更复杂的先验知识。
实际上,并不是因为你真的见过成千上万次抛硬币的结果才形成了你的先验;相反,你拥有关于硬币抛掷物理动力学的知识——即如果硬币旋转足够多次,结果本质上是随机的——以及硬币的物理结构——一面是正面,另一面是反面——并基于这些知识形成你的预期。如果硬币有可能两面都是正面,这种可能性会以一种无法用简单共轭先验捕捉的方式来改变你的预期。
在实践中,贝叶斯建模者常常试图通过用更复杂的生成过程来指定先验,从而绕过共轭先验的局限性。
例如,我们可以使用一个混合分布(mixture distribution)作为先验。该先验结合了三种分布:一种总是产生正面,一种总是产生反面,还有一种是集中在0.5附近的Beta分布。这三种分布各自被赋予一定的概率——比如说,有1%的概率硬币总是正面朝上,1%的概率总是反面朝上,98%的概率是接近公平的硬币。通过这种方式指定分布,我们既能利用共轭先验的简洁性,又能捕捉人们先验知识中的一些复杂性。贝叶斯推理此时就变成了对这三种离散假设进行评估,同时对关于偏差的连续假设进行评估。我们将在第4章讨论如何处理这类分布。
3.5 学习多项分布
当我们抛硬币时,我们只有两种选择。然而,许多学习问题需要推理多种选择的分布。例如,我们可能想要估计文档中单词的分布,或在类别中看到不同对象的概率。这就是估计多项分布的问题。与之前一样,我们将使用θ表示该分布的未知参数,其中(θ₁, ..., θₖ)对应于k个结果的概率。
正如你可能预期的,对于多项分布存在一个共轭先验,这被称为狄利克雷分布。狄利克雷分布是Beta分布的多变量推广。具有超参数α₁, ..., αₖ对应于k个不同结果。在该分布下,向量θ的概率为
![]()
其中对应于θᵢ的均值为θᵢ = αᵢ / ∑ⱼ αⱼ。本章中给出的beta-伯努利模型的所有结果都扩展到狄利克雷-多项模型:给定一系列n个事件的θ的后验分布,其中结果i以频率nᵢ发生,是具有参数nᵢ + αᵢ的狄利克雷分布,后验预测分布表明结果i发生的概率为nᵢ + αᵢ / n + ∑ⱼ αⱼ。在估计多项分布的背景下,取αᵢ < 1表示对θ的稀疏性的偏好,赋予许多结果概率为零的分布最高概率。这种对稀疏性的偏好随着αᵢ接近0而增强。这个属性在本书后面讨论的一些模型中将被证明是重要的。
3.3.6 一个例子:估计单词上的分布
在对自然语言进行概率建模时,研究人员必须决定如何为从未在他们拥有的语言数据中出现的事件分配概率。例如,如果研究人员只能访问文档的第一段,他们应该如何计算某个特定单词出现在文档第二段的概率?如果那个单词没有出现在第一段,它的频率为零。然而,给它分配一个零的概率似乎过于草率。
估计已知单词集上的分布只是估计多项分布的问题,而第3.3.5节中概述的方法提供了解决方案。对多项参数θ(即,将αᵢ设置为所有单词相同的值α)取一个Dirichlet(α)先验,结果为任何尚未看到的单词的概率估计为α / (n + α),其中n是所有观察到的单词频率的总和。
在自然语言处理界,这被称为“平滑”概率分布的问题,这种形式的平滑方案在贝叶斯推理的联系被阐明之前就已经被广泛使用(例如,Chen & Goodman, 1996)。存在多种其他更复杂的平滑技术,其中一些最近被证明也对应于合理的贝叶斯估计方法(例如,Goldwater, Griffiths, & Johnson, 2006b; Teh, 2006; Favaro, Nipoti, & Teh, 2016)。
3.4 高斯分布的贝叶斯推理
另一个常见的需要对连续量进行贝叶斯推理的情况是估计高斯分布的参数。高斯分布由一个均值μ和一个标准差σ参数化,其似然度为
![]()
我们将专注于从观测值 x估计 μ的问题,并将 σ视为固定值。
3.4.1 高斯分布均值的推理
![]()
![]()
![]()
![]()
![]()
![]()
![]()
3.4.2 非信息性和不当先验
![]()
3.4.3 一个例子:类别与记忆
高斯分布为刻画人们对某一类物体所拥有的知识提供了一种自然的方式。
例如,如果我们请你思考一条成年鳟鱼有多大,你很可能会用一个平均值以及围绕该平均值的方差来描述这一分布,而这恰好可以用一个高斯分布来表示。那么,这种关于类别结构的知识如何影响我们对世界的感知呢?
Huttenlocher、Hedges 和 Vevea(2000)采用了一种方法来回答这个问题,他们研究了类别知识如何影响人们从记忆中对刺激的重构。
在他们的实验中,参与者会非常短暂地看到一个刺激(例如一条鱼的示意图),然后需要调整另一个刺激在某一维度上(例如鱼的胖瘦程度),直到他们认为它与原始刺激相匹配。该过程重复多次,使参与者能够对刺激的分布有所学习,同时也使实验者能够考察这种分布如何影响人们的重构行为。
从记忆中重构刺激是一个有趣的问题,我们最初可能不会将其视为归纳推理问题。
然而,它恰恰具有我们一直在讨论的这类问题的形式:数据是记忆所提供的对刺激的含噪回忆,而假设则涉及刺激的真实值。
因此,我们应当预期,人们从记忆中的重构会受到他们关于“可能看到哪些刺激”的先验期望的影响。
在这些先验期望呈高斯分布的情况下,重构结果应偏向该高斯分布的均值,且偏差程度(即重构误差的大小)会随着刺激与均值之间距离的增大而增加。
我们可以用本节引入的符号更正式地表达偏差与刺激之间的关系。
![]()
![]()
这在 x上是线性的。因此,预测是:对 x的重构偏差应随 x的值呈线性变化,随着 x增大而减小,并且仅当 x等于先验均值 μ0时,偏差取值为 0。
Huttenlocher 等人(2000)进行了若干实验,其结果支持了这种关于记忆重构的贝叶斯解释。⁹ 图 3.6 展示了 Huttenlocher 等人(2000)实验 1 中某一条件的结果。在该条件下,参与者看到的鱼的“胖瘦”程度是从正态分布中抽取的。重构中的偏差通过比较人们重构出的大小与鱼的实际大小来衡量。这一偏差在鱼的实际尺寸上表现出所预测的线性效应。当鱼的胖瘦从均匀分布或双峰分布中抽取时,也发现了类似的效果;对于其他一维(1D)刺激(如灰色色块的亮度),同样观察到类似现象。
![]()
3.4.4 多个观测值
到目前为止,我们关注的是观测数据仅包含一个从高斯分布中抽取的数值的情形。
然而,同样的分析可以自然地推广到多个观测值的情况。
如果我们有多个来自高斯分布的独立样本,那么似然函数就变为:
![]()
![]()
3.4.5 多元高斯分布
![]()
![]()
3.5 其他分布的贝叶斯推理
我们为多项分布和高斯分布所阐述的连续变量贝叶斯推理基本框架,可以自然地推广到其他分布。主要挑战在于,公式 (3.21) 分母中的积分可能无法解析求解。在这种情况下,仍可通过简单地最大化先验与似然的乘积来获得最大后验估计(MAP 估计)。或者,也可使用数值技术来近似该积分。对于在固定范围内定义的少量参数,最简单的方法是对参数空间进行网格化,并在网格上对先验与似然的乘积求和,从而将连续问题转化为离散问题。基于蒙特卡罗方法的更复杂方法将在第6章中讨论。
![]()
![]()
3.5.1 一个例子:预测未来
如果你在评估一位60岁男性的寿命前景,你预计他还能活多久?如果你是一位高管,正在评估一部迄今已获得4000万美元票房的电影,你会估计它的总票房是多少?这些都是预测问题的例子——我们已知某个现象当前的范围或持续时间,但希望推理其总体范围或总持续时间。这类问题可以被表述为贝叶斯推理的一个案例,其中数据是当前的数值,而假设则是总量。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
这项研究还提供了另一个例子,说明我们能够从人们的行为中推理其先验分布:当我们知道他们所看到的数据以及他们得出的结论时,我们可以推理出能够捕捉其推理过程的先验。
3.6 贝叶斯模型选择
许多统计推理问题要求比较复杂度不同的假设。例如,根据观察到的一系列正面和反面结果来推理一枚硬币是否公平的问题,需要比较一个假设(硬币是公平的,则 θ = 0.5)与另一个允许 θ 取 0 到 1 之间任意值的假设。类似的问题也出现在评估是否存在因果关系时,其中“存在因果关系”的假设还允许该关系的强度可变。同样,当我们试图决定数据用层级结构组织还是用空间表示更合理时,似乎我们需要考虑这些表示方式在灵活性上的差异。
使用观测数据在两个复杂度不同的概率模型之间进行选择,通常被称为“模型选择”问题(Myung & Pitt, 1997; Myung, Forster, & Browne, 2000)。解决此问题的一种熟悉统计方法是假设检验,但这种方法通常较为复杂且违背直觉。相比之下,贝叶斯模型选择方法是对前述方法的无缝应用。只要将不同复杂度的假设转化为可观测数据上的概率分布,就可以直接使用贝叶斯定理进行比较(参见 Kass & Raftery, 1995)。我们将通过判断一枚硬币是否为有偏硬币的例子来说明这一原则。
3.6.1 寻找有偏硬币
![]()
![]()
![]()
Griffiths和Tenenbaum(2007a)使用这种边际概率方法来计算在第3.2.2节中讨论的巧合模型中使用的对数似然比。如果你还记得,参与者被展示了来自实验的数据,该实验调查了基因工程或超自然现象。遗传工程师试图确定一种药物是否影响了100只老鼠的性别,而超自然调查员则评估了通灵者是否能够影响100次抛硬币的结果。参与者被告知雄性老鼠或硬币正面出现的频率,并被要求评估是否存在关系。在这种情况下,如果没有关系,雄性老鼠或正面出现的概率为0.5。如果存在关系,那么这个概率可能在0到1之间的任何值。前一段给出的结果为我们提供了计算在该假设下观察到的数据的概率所需的一切,因此也是计算所需的对数似然比,以推理人们关于基因工程或通灵能力的先验。
3.6.2 贝叶斯奥卡姆剃刀
![]()
3.6.3 一个例子:空间中的巧合
推理因果关系提供了一个模型选择问题的经典例子,需要我们在存在关系的世界模型和不存在关系的世界模型之间进行选择。如第3.2.2节所述,Griffiths和Tenenbaum(2007a)观察到我们的直觉巧合感似乎与事件提供意外因果关系的强有力证据的情况很好地对应。这些事件引发了一种怀疑,即可能存在某种原因,尽管我们假设不存在这样的关系。
事件在空间位置的巧合提供了这种现象的一个好例子。图3.10显示了Griffiths和Tenenbaum(2007a)实验2中使用的几种刺激。每个刺激由一个正方形内的一组点组成,参与者被告知这些点代表二战期间落在伦敦的炸弹的假设位置。战后的统计分析显示,炸弹似乎是随机落下的,但城市中的人们相信存在一个更系统的过程。实验中的参与者被要求评估炸弹以每种模式落下的巧合有多大。图中还显示了平均评分,它们表明炸弹总数和聚集在一起的炸弹数量与更广泛分布的炸弹数量之比对评分有明显影响。
![]()
![]()
3.7 小结
贝叶斯推理描述了一个理性主体如何处理归纳问题。
它指明了如何将先验知识与新数据所提供的信息结合起来。
因此,它是一种理解人类认知的强大工具。通过贝叶斯模型,我们能够精确地识别出在各种情境下指导人类归纳推理的先验知识。
在最简单的情形中,只需向人们呈现一个归纳推理任务,并将其所得结论与不同先验分布下得出的结论进行比较,即可实现这一点。
这些结果有助于解释人类认知中的各种偏差,而这些偏差若无此框架则可能令人困惑。
当应用于离散假设时,贝叶斯推理帮助我们理解:离散的、符号化的结构如何能够产生连续的、渐变的泛化模式。
借助这种方法,即使仅有极少量的数据,我们也能做出有意义的推理。
只要有足够多的数据,所得模型便能从渐变的泛化过渡到对某一类别假设的确定性判断,从而准确刻画人类的归纳推理过程。
贝叶斯统计还为我们提供了刻画更复杂推理问题的工具,包括需要比较复杂度不同的假设的情形。
这类推理无需开发新方法,而是自然地通过概率论的基本原理加以处理。
其结果是对更简单解释的隐式偏好——随着本书后续章节探讨人类如何学习可能任意复杂的“世界模型”,我们将看到这种偏好发挥着日益重要的作用。
https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.