Identifiability of Bayesian Models of Cognition
贝叶斯认知模型的可识别性
https://www.biorxiv.org/content/10.1101/2025.06.25.661321v1.full.pdf
Identifiability of Bayesian Models of Cognition)的核心目标是系统性地探究:在先验、编码函数(即神经表征)和损失函数均未知的情况下,能否从行为数据中唯一且可靠地恢复这些贝叶斯观察者模型的组成部分。
本文重点包括:
揭示单一噪声水平下的根本性不可识别性:当仅在单一感觉噪声条件下收集行为数据时,先验与损失函数之间存在严重的混淆(degeneracy)——不同的先验–损失函数组合可产生几乎相同的响应分布,导致模型无法被唯一识别。
提出并证明多噪声水平可实现可识别性:理论分析表明,只要在多个不同感觉噪声水平下获取行为反应(如通过改变刺激呈现时间或对比度),大多数贝叶斯模型的三个核心组件(先验、编码/Fisher信息、Lₚ损失函数的指数)通常是可识别的。这是因为偏差对噪声幅度的非线性依赖(二阶缩放)为区分不同模型提供了关键信息。
识别例外情况及其应对策略:论文指出一类重要的例外模型(如满足韦伯定律的编码 + 对数正态先验)即使在多噪声条件下仍不可识别(属于测度为零的“例外集合”)。但可通过让受试者适应新的刺激统计特性(如引入双峰先验)打破这种结构对齐,从而使模型变得可识别。
验证于真实与模拟数据:通过分析已发表的朝向估计和时间间隔复现实验数据,以及大量数值模拟,证实了理论预测:多噪声设计显著提升模型识别能力;而单噪声条件下损失函数和先验难以确定。
对实验设计的直接指导意义:
- 连续估计任务
比传统2-AFC范式更高效地估计编码资源(Fisher信息)沿刺激维度的变化。
- 主动操控感觉噪声水平
(而非仅增加试验次数)是提升贝叶斯模型可识别性的关键实验策略。
在总试验数受限时, 增加噪声水平数量通常比增加每条件试验数更有效 。
- 连续估计任务
总之,该论文为贝叶斯认知建模提供了坚实的可识别性理论基础,澄清了以往关于模型退化性的模糊认识,并为未来心理物理学和计算神经科学实验的设计与解释提供了明确、可操作的原则。
![]()
![]()
摘要
从行为测量中推断潜在的计算过程,是认知科学与神经科学中一种基本的研究方法。尽管贝叶斯决策理论已成为建模认知过程的主要规范性框架,但其建模组件(即先验信念、似然函数和损失函数)在多大程度上能够从行为数据中被恢复,目前尚不清楚。本文系统地研究了从行为任务中推断此类贝叶斯模型的问题。与以往研究中常描绘的悲观图景相反,我们的分析结果在广泛适用的条件下保证了模型原则上是可识别的(identifiable),且无需对先验或编码过程有任何先验知识。基于行为数据集的模拟和实际应用验证了该理论的预测在现实情境中成立。重要的是,我们的结果表明,要可靠地恢复模型,通常需要来自多个噪声水平的数据。这一关键洞见将指导未来的实验设计。
1 引言
在认知科学与神经科学中,贝叶斯决策理论已成为理解人类感知(1–6)与认知(7–9)的主要规范性框架。该框架通过三个要素为行为建模提供了一套规范性方案(10)。第一个要素是先验信念(prior belief),即一个概率分布,描述观察者在接收到任何感觉输入之前,认为哪些刺激更可能或更不可能出现。第二个要素是似然函数(likelihood function),它描述了在给定某一刺激的情况下,产生特定感觉观测值的可能性。先验信念与似然函数通过贝叶斯规则结合,得到后验概率分布,即对每个可能的刺激值产生当前含噪编码的可能性的估计。第三个要素是损失函数(loss function),它为估计误差分配代价。例如,它可能对小的估计误差较为宽容,也可能对所有估计误差一视同仁地惩罚。贝叶斯决策理论规定,应选择使损失函数的后验期望最小化的刺激值作为决策。
从测量到的人类行为中“逆向工程”这些成分,已引起广泛关注(11–15)。该方法已被应用于感知(11, 12, 15)、感觉-运动处理(16, 13)以及近期的神经经济学(17, 18)等领域。其基本思路是从行为观测中推断先验、编码和损失函数。尽管贝叶斯模型在行为科学中被广泛使用,但令人惊讶的是,贝叶斯模型是否可识别的问题尚未得到系统研究。人们有时认为贝叶斯方法是欠约束的,且本质上存在退化性(degenerate)(15),即多个不同的模型可能产生完全相同的行为。以往研究通常预先假定模型的某一部分,以此约束模型拟合。正如(19)所指出的,相关工作在估计观察者模型时常常固定三个组件中的一个,例如:通过测量辨别力来约束编码过程(如20)、通过自然场景测量先验(如21),或在实验中人为设定损失函数(如22)。迄今为止,尚不清楚贝叶斯模型的各个组件是否真能从行为数据中被识别出来。毫不奇怪,模型恢复缺乏理论基础,已导致对贝叶斯方法的严重批评(23, 24)。
理解一种计算方法能否从经验数据中恢复真实模型,是几乎所有使用基于模型推断的科学领域中的一个基本问题,并不仅限于贝叶斯模型。在统计估计中,该问题可表述为估计量的一致性(consistency)(25, 26),对于简单估计问题(例如从样本中估计高斯随机变量的均值)已有较好理解。然而,对于更复杂的模型,精确理解其可识别的条件可能极具挑战性(27)。模型可识别性问题在经济学(28, 29)和系统生物学(30, 31)中已受到更多关注。但这些结果并不直接适用于认知的贝叶斯模型。对贝叶斯模型可识别性理解的缺失,为解释实验中的经验观察结果构成了根本性挑战。
我们通过建立一个严格的理论,填补了这一关键空白,该理论阐明了从行为数据中识别感知决策贝叶斯模型的条件。一方面,我们发现贝叶斯模型确实存在显著的退化性——在简单的实验设置下,系统性地无法完全识别这三个模型组件。另一方面,我们严格证明:通过更精心设计的实验设置(例如在不同试次间实验性地改变神经噪声的强度),可以系统性地消除这种退化性。值得注意的是,我们发现贝叶斯模型在无需对编码过程或先验做任何参数化假设的情况下即可被识别。这些结果的一个关键洞见是:在实验中收集多个感觉/神经噪声水平下的测量数据,有助于模型的恢复。基于一系列已发表的行为数据集所进行的模拟和实际应用,验证了该理论结果在现实情境中的有效性。我们的结果对于解释将贝叶斯观察者模型拟合到经验数据所得出的结论具有重要意义,并为设计新实验以基于行为测量理解大脑如何计算感知决策提供了指导原则。本工作的初步版本此前已发表(32)。
2 结果
继先前研究(33, 34, 5, 17, 6)之后,我们将刺激变量 θ(例如,一个条形的方向)的神经处理建模为一系列编码与解码计算。具体而言,我们使用一个通用非线性变换 F 对一维变量的编码进行建模,并叠加加性噪声(见图1):
![]()
![]()
其中,δ 代表感觉噪声,假定其服从方差为 σ² 的高斯分布,用于描述感觉噪声(内部噪声)的强度。感觉噪声源于神经脉冲数量或认知资源的限制。我们关注一维情况,因为大多数现有的贝叶斯模型都处理一维刺激变量,但我们预期该理论可推广至多变量情形。贝叶斯框架包含几个重要组成部分:第一个组成部分是编码函数 F;第二个组成部分是先验,由概率分布 p_prior(θ) 给出;第三个组成部分是损失函数 ℓ(x,y)。流行的损失函数包括0-1损失、平方误差损失、绝对距离损失,它们均属于 L_p 损失函数的一般族。在贝叶斯框架下,观察者在每次试验中获得一个含噪的感觉测量值,并通过将先验与似然相乘来计算后验分布。观察者报告的刺激被建模为使损失函数最小化的刺激。
我们感兴趣的是理解贝叶斯模型的各组成部分是否能从行为反应中恢复。虽然我们对贝叶斯模型的分析结果主要聚焦于小噪声情形,但广泛的数值模拟用于验证这些结论在更一般情况下仍成立。
2.1 当损失函数已知时,先验和编码可以被识别
假设我们从一个贝叶斯观察者的估计任务中收集了足够多试验的行为反应数据。在每次试验中,呈现一个特定刺激 θ,观察者报告他们所感知到的刺激。我们首先考虑损失函数已知为平方误差损失的情形(文献中常采用的一种流行损失函数)。我们询问:能否从行为反应中恢复先验和编码?理论上,我们发现答案总是“是”,前提是关于资源分配和先验平滑性的温和假设,以及小感觉噪声。
首先,可以通过比较由邻近刺激引发的反应分布之间的重叠程度来恢复资源分配;围绕某一刺激 θ 的重叠越小,则 θ 处的资源分配越高。我们证明该程序可用于精确恢复资源分配(定理1)。
其次,可通过进一步考虑估计偏差与先验斜率之间的关系来识别先验分布,这种关系在平方误差损失下大致遵循一一对应关系:
![]()
其中,表示费舍尔信息量(Fisher information),它代表编码的资源分配。一旦编码被识别,即可通过此恒等式从偏差中识别先验。
值得注意的是,当已知的损失函数属于一般的 L_p 族时(即,观察者的损失由绝对误差的幂函数决定),相同的结论也成立。这包括文献中常采用的损失函数,例如最大后验估计(MAP, p→0)、中位数(p=1)或均方误差(p=2)。
这些分析结果是在感觉噪声较小的条件下推导出来的。为了检验其在现实情境中的有效性,我们采用了一种通用拟合程序,该程序在离散网格上表示编码和先验,并优化这些参数及噪声幅度,以最大化观测数据的逐次试验似然。基于广泛数值模拟的结果支持我们的分析结论。我们发现,当噪声较小时,模型组件能够被紧密恢复。噪声较小时,上述结果共同为经验性地逆向工程先验和编码提供了理论依据——前提是我们对观察者的决策规则有较好的了解。
图2 展示了一个此类模拟示例,其灵感来源于方向估计任务的数据(35, 36, 6)。在此特定模拟中,先验被假定为均匀分布,且编码方式使得基本朝向(cardinal orientations)被更好地编码。我们发现,约1000次试验后,先验和编码的基本形状即可被轻松恢复。值得注意的是,这表明人们可以利用估计任务和贝叶斯框架有效推断编码资源的分配。这一观察可能对实验工作具有重要启示。编码资源是辨别阈值的倒数,这是心理物理学中一个重要的行为测量指标,通常通过二元分类任务来估算。使用二元分类任务推断可辨别性的一个局限在于,它通常需要大量试验。我们的模拟结果表明,连续估计范式为推断一维刺激变量的刺激依赖性编码资源提供了一种可行的替代方案。稍后我们将使用实验数据进一步检验该程序。
![]()
当噪声增加时,编码资源的分配(即编码本身)仍可被恢复,但先验可能变得难以恢复,因为大噪声可能会抹去先验的细节(补充信息附录,图S13)。这些结果对未来实验具有进一步的启示意义,即:包含小感觉噪声条件对于识别先验至关重要。对于视觉实验,这可通过提高视觉刺激的对比度或呈现时间来实现。
2.2 当损失函数未知时,先验与损失函数可能系统性地混淆
尽管在某些实验中,我们可能对观察者所使用的损失函数已有较好的先验知识,但这种情况并不普遍。因此,我们接下来考虑一个更一般的情形:损失函数未知。目前,我们假设感觉噪声的幅度 σ 较小,并且在所有试次中保持一致,同时假设损失函数属于一般的 Lp损失函数族。重要的是,无论是感觉噪声的幅度还是指数 p,都事先未知。
利用与前述相同的理论论证,即使损失函数未知,编码(即费舍尔信息量)仍然可以被良好地识别。然而,对于损失函数和先验,我们发现它们可能系统性地混淆。具体而言,当感觉噪声较小时,两个模型不可区分(即产生相同的行为)当且仅当它们的编码完全相同,且它们的先验满足如下关系:
![]()
其中,整数 p₁ 和 p₂ 是两个编码模型损失函数的指数(参见 SI 附录定理 S9 以获得正式证明)。最大后验概率(MAP)估计器(在损失函数中 p → 0)是特殊的;在此公式中,指数需要被替换为 -1 而非 0。因此,在仅存在单一水平小感觉噪声的实验中,先验和损失函数可能会系统性地混淆。
这些要点通过图 3 中的一个示例加以说明。我们基于与图 2 相同的基础真实模型生成合成数据集:均匀先验、对基底方向具有更高编码精度,以及平方误差损失函数。然后我们拟合贝叶斯模型,假设其损失函数正确。如预期所示,图 3d 表明该拟合可以很好地恢复先验和编码模型。然而,由于在此问题中损失函数未知,人们也可能拟合一个假设了不同损失函数的模型,例如 L₀(MAP 估计器)或 L₈ 损失。使用这些函数对数据进行拟合时,人们发现编码再次得到了很好的恢复。然而,在这种情况下,拟合得到的先验在基底方向上具有显著更低(p=0)或更高(p=4, 8)的密度(图 3c,e,f)。那么,哪个先验反映了真实情况呢?人们或许会尝试使用模型拟合的对数似然值来在不同模型之间做出判断。然而,具有不同损失函数的模型对数据的解释同样良好(图 3b)。因此,在这种情况下,无法识别出正确的模型。
![]()
虽然公式 (3) 表明,当损失函数未知时,先验和损失函数通常无法被识别,但存在一个特殊情况,即先验可以被识别:当 Fisher 信息是均匀的时候。在这种情况下,根据公式 (3),在不同的 Lₚ 损失函数下拟合得到的先验是相同的,因此可以被识别,即使损失函数本身可能仍无法被识别。
2.3 利用基于多种感觉噪声水平的行为反应使大多数模型可识别
乍看之下,上述结果可能暗示了一种较为悲观的观点:当先验和损失函数均未知时,贝叶斯观察者模型的可识别性似乎受限。然而,必须认识到,上述研究设定假设实验者仅在单一感觉噪声条件下收集观察者的行为反应,即所有试验中感觉噪声的大小是相同的。关键在于,我们发现这种可识别性上的退化(degeneracy)通常可以通过实验设计加以避免——只要实验中不同试验的感觉噪声量并不相同。在视觉心理物理学实验中,感觉噪声可通过有效操控刺激呈现时间的长短或刺激对比度来调节。
尤为重要的是,我们的理论分析表明:如果可以获得基于多个较小感觉噪声水平的行为反应分布,并且试验数量足够大,则贝叶斯观察者模型的各个组成部分通常是可识别的(见材料与方法部分的定理3)。从更技术性的角度看,多噪声水平之所以能实现可识别性,其原因在于偏差(bias)随感觉噪声幅度呈现出二阶、非线性的缩放关系。不同的先验与损失函数组合通常对“偏差应如何随感觉噪声水平变化”做出不同的预测,这使得我们可以排除那些不符合真实情况的损失函数(参见SI附录图S12)。
为数值验证这些理论结果,我们生成了大量随机模型,这些模型具有光滑的编码函数、光滑的先验密度函数,以及Lₚ损失函数的指数p。对于每个模型,我们通过在多个噪声水平下采样行为反应来生成合成数据集,然后检验是否能从模拟数据中恢复出模型的各个组成部分。在这些数值模拟中,即使使用实验上合理的样本量,我们也一致发现:当有来自多个噪声水平的行为反应可用时,模型的各组成部分(即先验、编码函数和损失函数的指数)均可被可靠地识别。图4展示了三个随机生成模型的示例。附录S4.4节提供了更多涵盖不同损失函数的示例。
![]()
心理物理学实验通常受限于试验总数。鉴于上述结果,一个关键问题是:当总试验数受限时,采集多个噪声水平下的行为反应(例如使用不同对比度的视觉刺激)是否有助于提升模型的可识别性?为回答此问题,我们在模拟中系统比较了在总试验数固定的前提下,改变噪声水平数量对模型恢复能力的影响。该分析涵盖了四种不同的先验与编码组合(均匀或周期性先验与编码;见材料与方法),噪声水平数量设为1、2或4种,并考虑了从2,000到40,000不等的试验总数。
这些结果汇总于图5。我们发现,在给定试验总数的情况下,增加噪声水平的数量通常能有效消除前述的退化问题。在单一噪声水平下,损失函数的可识别性表现不一:某些情况下(尤其是当p较小时),有限大小的单一噪声水平已能提供足够信息以约束甚至识别出p。这表明,有限噪声下获得的反应分布可能比小噪声极限下包含更多关于损失函数的信息。然而,在实验可行的样本量下,不同损失函数指数对应的数据似然值通常非常接近,而要仅凭单一噪声水平可靠识别模型所需的试验数量在实际实验中并不可行。当包含两个噪声水平时,整体可识别性得到提升,特别是高低噪声水平组合使用时效果更佳(参见SI附录图S14)。此外,我们发现将噪声水平数量进一步增加至两个以上,能显著继续改善可识别性。在四个感觉噪声水平下,负对数似然(NLL)曲线变得陡峭,通常能明确区分出真实p值或与其接近的指数。图5d表明,将噪声水平数量从1个增至4个,对可识别性的提升效果可能优于将试验总数增加两倍甚至更多。更多模拟结果见SI附录S4.2和S4.3节。这些结果对实验设计的一个重要启示是:增加噪声水平数量在提升模型可识别性方面,通常远比单纯增加试验数量更高效。
![]()
2.4 通过适应不同刺激统计特性来应对难以识别的模型
我们提醒注意,仍存在一些模型,即便拥有多个噪声水平下的行为反应,也无法保证其可识别性。然而,从数学意义上讲,这类模型极为罕见且属于例外情况。我们从理论上分析了在所有模型空间中遇到此类模型的概率。在基于高斯过程的自然测度(或体积)概念下,这些退化模型所构成的集合测度为零(见材料与方法部分的定理3)。这一理论结果与前述数值模拟一致——后者显示,绝大多数随机采样的模型均可被良好识别。
尽管可识别性保证适用于除测度为零集合外的所有模型,但这一例外集合仍可能包含具有现实意义的模型。特别地,对于标量变量中常被考虑的一类模型——其编码遵循韦伯定律(Weber’s law)(37, 38, 39)(即辨别阈值与刺激强度成正比),且先验为对数正态分布(即在感觉空间中呈正态分布)——解析计算表明,该模型恰属于上述例外集合。有趣的是,对于此类模型,无论基于多少个噪声水平收集行为反应,损失函数与先验始终纠缠在一起,无法分离(参见SI附录第S1.1节)。
这些结果对实验工作提出了挑战:在此情形下,如何仍能恢复出损失函数和先验?从数学上看,该例外集合由那些编码函数与先验以极其特定方式对齐的模型组成。我们发现,这种模糊性可通过让系统适应具有不同刺激统计特性的新情境来解决——这种适应会引发编码或先验的变化。由于例外集合测度为零,几乎所有短期刺激先验的引入都会使整体模型脱离该例外集合。这一结论在以下两种情况下均成立:先验与编码同时适应短期刺激统计特性,或仅有其中之一发生适应(详见SI附录S2.7节的详细讨论)。
2.5 估计任务中通常考虑的运动噪声不影响模型的可识别性
估计任务通常要求受试者复现刺激变量,例如通过旋转旋钮来报告所感知到的刺激朝向。在此类复现范式中,尽管在许多任务中运动噪声通常较小,但它仍可能对行为反应产生贡献,因而可能需要被显式建模。在经验上,这类任务中的运动噪声常被建模为高斯加性噪声。我们希望了解运动噪声是否会妨碍模型的可识别性。我们发现,加入高斯加性运动噪声——更一般地说,对称的加性噪声——并不会影响我们的结论(见材料与方法部分的定理4):当试验数量足够时,感觉噪声和运动噪声来源是可以被分离的。
2.6 对实验数据集的应用
我们利用多个已发表的数据集来检验我们的理论,以证明理论所得的洞见在实践中成立。如下所示,对实验数据的分析结果为我们的理论提供了有力支持。这些结果同时也为未来的研究提出了新的实验方向。
应用1:从朝向估计数据中推断刺激依赖的神经资源分配
我们首先将理论应用于 de Gardelle 等人(35)收集的数据集,该数据集测量了人类观察者在朝向复现任务中的行为反应。在该实验中,系统性地操控了刺激呈现时间(20ms、40ms、80ms、160ms、1000ms;共5种条件)。我们假设缩短刺激呈现时间会增加内部噪声的幅度,并按比例降低每个刺激朝向处的Fisher信息(FI)。
我们首先通过分别拟合各实验条件下的数据来估计FI。图6a绘制了五种条件下恢复出的FI曲线。如预期所示,在所有条件下,主轴朝向(cardinal orientations)的FI均高于斜向朝向(oblique orientations),这与先前报道的“斜向效应”(oblique effect)一致(40),即斜向朝向的辨别阈值高于主轴朝向。
![]()
为检验不同条件下编码资源分配是否一致,我们将每种条件下FI的平方根除以其总信息量进行归一化。如图6b所示,归一化后的信息曲线随朝向的变化在各条件下总体一致。这些结果,结合前述模拟研究的结果,表明FI可以从连续估计任务中被可靠地识别出来。这为测量连续刺激变量神经表征精度提供了一种可能比二元选择范式更节省样本的策略。
为研究朝向编码中的信息如何随刺激呈现时长变化,我们量化了每种条件下的总FI。我们发现,在该任务中视觉信息的时间整合总体呈次线性(sublinear)关系(图6c),即总FI显著低于理想时间整合所预测的值。有趣的是,信息量的最大增长发生在80ms到160ms之间。当比较160ms与1000ms条件下的总FI时,后者仅显示出轻微的增加。
应用2:从朝向估计数据中识别先验与损失函数
利用同一套朝向估计数据,我们进一步探究是否能基于单一噪声水平(操作上由刺激呈现时间定义)的数据识别损失函数。我们分别对各条件的数据拟合模型,并考察不同损失函数模型之间的负对数似然(NLL)差异。我们发现,即使有2000次试验,Lₚ损失函数中最佳拟合指数与最差拟合指数之间的NLL差异通常小于5。这些结果表明,在该任务中,仅凭单一噪声条件的数据难以识别损失函数(图7b),相应地,先验分布也难以识别(SI附录,图S33)。
![]()
根据我们的理论,我们预期当联合多个条件的数据时,模型的可识别性会提高。为检验这一关键理论预测,我们将模型拟合于任意两个噪声水平组合的数据(共10种组合)。总体而言,我们发现损失函数变得更具可识别性(图7b),尤其是在组合总FI差异较大的噪声水平时。在总共2000次试验的情况下,Lₚ损失函数的最佳与最差拟合指数之间的NLL差异可超过20,远大于使用相同试验数但仅来自单一噪声水平时的差异。此外,当联合全部5个条件的数据(共10,000次试验)时,结果明确支持Lₚ损失函数中一个较大的指数(约为6),不同于以往研究中常用的平方误差损失函数。最后,联合全部数据的结果与两噪声水平组合的一般模式一致,进一步支持“原则上两个噪声水平可能已足以实现可识别性”的观点。
综上,这些实证结果支持我们的理论,并建议在实验中采集多个噪声水平下的行为数据具有实际益处。
应用3:从时间间隔数据中识别模型的困难
我们进一步考察了Remington等人(38)的一个数据集。在该实验的每次试验中,向受试者呈现一段特定持续时间的时间间隔,随后要求其报告所感知的时间长度。所用时间间隔取自一个有界范围。这类任务是标量变量感知研究中的典型范式,类似范式也见于其他研究(37, 41, 42)。针对此类任务已发展出贝叶斯模型,通常假设刺激编码满足韦伯定律(Weber’s law),且先验在刺激范围内为高斯、对数正态或均匀分布。我们此前发现,对数正态先验的贝叶斯模型优于高斯或均匀先验模型(6)。而根据上述理论分析,这类特定模型可能存在不可识别性问题,因此我们试图对此进行实证检验。
将模型拟合于单条件数据时,我们发现数据可被一个类似对数正态分布的单峰先验很好地描述(图8a–f)。然而,损失函数难以识别:基于这些数据,不同先验与损失函数组合模型对应的NLL几乎完全相同(图8g)。这些结果表明,尽管实验数据可由基于对数正态先验、并在符合韦伯定律的神经表征上进行贝叶斯推理的模型良好解释(与先前结果一致(6)),但对数正态先验的具体参数和损失函数无法从这些数据中被唯一确定。
![]()
我们进一步生成了一个模拟数据集,其中噪声水平增至四种(图8h)。对于这个多噪声水平的数据集,模型仍然不可识别。这与我们的理论预期一致,因为韦伯定律编码与对数正态先验的组合属于不可识别模型的例外集合。
那么,若想在此任务中识别受试者所使用的损失函数和精确先验,应如何解决?根据我们的理论分析,若保持相同编码但采用不同的先验,则该模型几乎必然脱离不可识别的例外集合。因此,我们模拟了一个假设情境:受试者经过适应后采用了双峰先验(图8i–p),而损失函数保持不变。确实,在此模拟数据集中,当存在多个噪声水平时,损失函数变得高度可识别(图8i–q),与我们的理论精确吻合。这些分析为未来实验提供了可直接检验的预测。
3 讨论
尽管先前的研究已尝试从行为数据中推断贝叶斯观察者模型的组成部分,但这些模型在多大程度上能够被恢复,目前仍缺乏清晰理解。少数探讨贝叶斯模型可识别性的研究仅聚焦于特定模型集合及受限条件下的情形(15, 13)。通过系统考察一类广泛适用于感知与认知的贝叶斯模型的可识别性,我们的研究填补了这一重要空白。尽管我们的结果已具有一般性,但仍可进一步拓展至更广泛的场景。以下我们讨论三个可能的拓展方向。
首先,我们关于多噪声水平下可识别性的解析结果,依赖于一个关键假设:编码函数在不同噪声水平下保持不变。尽管这一假设看似合理,但在某些实验操控下(例如改变刺激对比度),刺激的编码资源(或辨别阈值)可能会不成比例地缩放。因此,有必要探讨在放松该假设的情况下,类似结论是否依然成立。我们通过模拟对此进行了研究,发现即使编码函数随噪声水平变化,模型的可识别性仍可能得以保留(SI附录,S5.3)。
其次,尽管我们的结果主要关注感觉噪声的作用,实验中亦可操控刺激噪声(stimulus noise)。以视觉朝向感知研究为例(36, 12),可使用由多个小Gabor斑块组成的刺激,其朝向从高斯分布中采样;通过调节该高斯分布的宽度,即可控制刺激噪声的大小(36, 12)。与感觉噪声不同,刺激噪声是外源性的,无法通过神经加工加以降低。我们感兴趣的是:刺激噪声是否有助于模型识别?理论上,我们发现:若在纯感觉噪声条件(即刺激噪声为零)之外,额外引入非零刺激噪声条件下的行为反应,则大多数模型变得可识别——前提是编码函数并非完全均匀(SI附录,S5.2)。数值模拟也表明,调节刺激噪声确实能提升可识别性。然而,在比较两种噪声(刺激噪声 vs. 感觉噪声)对模型可识别性的提升效果时,模拟结果显示调节刺激噪声通常效果较弱。进一步分析(SI附录 S5.2)表明,刺激噪声会削弱那些最能揭示损失函数特性的偏差成分,同时使反应分布变宽,从而降低从数据中识别偏差的信噪比。
第三,尽管我们的研究聚焦于估计任务,但结果可推广至心理物理学中另一重要范式——二选一强制选择任务(two-alternative forced choice, 2-AFC)。在此类任务中,观察者需将测试刺激与参考刺激比较,并在每次试验中做出二元选择。建模此类任务需指定决策规则。目前存在两种主流理论解释:其一是受试者先解码出估计值 θ^,再与参考值比较;其二是直接基于后验密度 P(θ>x)做出二元决策。后者对应于损失函数已知的情形。若测试刺激与参考刺激均受到不可忽略的感觉噪声影响,则在损失函数已知的前提下,需对测试刺激使用两个感觉噪声水平才能识别模型。我们还发现,在2-AFC范式下,使用三个噪声水平即可获得与估计任务中两个噪声水平相当的渐近可识别性保证(SI附录,S5.1.1)。若参考刺激的感觉噪声可忽略,则所需噪声水平数量减少一个,与估计任务一致。然而,数值模拟表明,2-AFC范式在模型识别效率上通常低于估计任务(SI附录,S5.1.2)。
本文采取的立场是:从数据中定量恢复所有模型组成部分是可取的目标。然而在实践中,“可识别性”的理想定义可能取决于具体研究问题。例如,某些实验可能仅关注编码资源如何沿某一刺激维度分配,而对先验或损失函数不感兴趣;又如,若主要目标是理解先验的大致形状(例如先验峰值位置),则未必需要精确恢复先验的具体形式。在这些情形下,可识别性可能更容易实现。
先前关于贝叶斯模型恢复的研究(15, 13)呈现出一种复杂图景,暗示贝叶斯框架存在显著的内在退化性,但缺乏清晰的理论解释。我们的工作与这些研究存在若干关键差异。首先,(15, 13)聚焦于特定函数形式的编码与先验,以适配某些标量刺激。具体而言,(15)假设编码具有特定对数形式,并将先验表示为高斯混合,而我们允许先验与编码为任意光滑函数。(15)进一步考虑了由两个倒置高斯函数混合构成的损失函数,以便快速数值求解期望损失;而我们则考察Lₚ损失函数族。一方面,我们的结果证实了(15)所观察到的现象:在单一感觉噪声水平下确实存在退化性;但另一方面,我们更重要地指出,通过调节感觉噪声幅度,这种退化性通常可被大幅避免。(13)在对数编码与对数正态先验这一特殊情形下经验性地研究了贝叶斯模型的可识别性,数值上发现结合两个噪声水平的数据可缓解部分识别限制,但仅考虑了基于L₂损失(附加动作代价)的损失函数。我们的研究揭示:这并非偶然——对于该模型,Lₚ指数本质上不可识别;但通过进一步策略(如适应不同先验),仍可实现识别。
相比之下,我们的发现描绘了一幅更广泛且更乐观的图景。我们提供了通用的可识别性定理,既不对编码或先验做参数化假设,也不预设Lₚ损失的指数已知。通常仅凭估计任务的数据,即可分别识别全部三个模型组成部分。有趣的是,我们的结果揭示:先前被广泛研究的“对数编码 + 对数正态先验”组合,实际上是一个具有异常高退化性的特例,同时我们也提出了克服该问题的策略。
我们的工作对试图逆向工程感知决策过程的实验研究具有直接启示。第一,关于编码(即Fisher信息)可识别性的结果表明,连续估计任务是研究编码资源如何随刺激变化的有效范式。以往多数研究使用2-AFC来估计特定刺激值下的辨别阈值(编码资源的倒数),但2-AFC需要大量试验,实践中通常只能测量少数离散刺激点的阈值。我们的结果表明,连续估计任务提供了一种更节省样本的策略,可用于推断辨别阈值如何沿连续刺激维度变化(43)。第二,也是关键的一点,我们的结果为实验设计提供了直接指导:若目标是推断贝叶斯观察者的各组成部分,则应设置能操控刺激噪声特性的实验条件。尽管某些实验已采用此类操控,但其在模型识别中的作用尚未被充分认识。我们的结果表明,在多个噪声水平下收集行为反应,对于贝叶斯模型的识别至关重要——尤其是在损失函数未知的情况下。未来一个有趣的研究方向是:在给定试验总数的约束下,如何优化实验设计以最有效地恢复模型组成部分。总体而言,对贝叶斯模型(及其他计算认知神经科学中常用模型)可识别性的更好理解,将有助于现有数据的解释,并指导未来实验的设计。
材料与方法
编码与解码模型 我们针对一维刺激变量假设了一个通用的编码与解码模型。具体而言,我们假设刺激空间 X为一个圆环(circle)或一个有界区间(bounded interval),测量空间(即大脑中的神经编码信号)记为 Y,映射 F:X→Y是一个双射(bijection)。形式上,神经编码可由以下方程描述:
![]()
模型空间的形式化 在考虑识别通用观察者模型的问题时,我们不对先验和编码设定固定的参数形式,因此可能的模型空间是无限维的。这一概念可以方便地使用泛函分析中的标准概念进行形式化。
![]()
![]()
接下来,我们给出在更一般设定下的可识别性定理:在此设定中,编码、先验和损失函数均事先未知。我们用 Ω表示不可识别模型的例外集合。
![]()
该定理原则上保证了在所有不属于例外集合 Ω的模型中,损失函数是可识别的。重要的是,该定理并不要求噪声幅度 σ1和 σ2事先已知,仅要求它们足够小,且其比值远离 0 和 1。在实践中,由于刺激噪声幅度 σ与诸如呈现时长等实验操控之间的映射关系可能事先未知,因此可能难以设计出恰好具有两个最优噪声水平的实验。一种实用的做法是在不同尺度上获取更多噪声水平下的观测数据;我们的数值结果表明,这种方法通常能成功恢复损失函数。
![]()
定理2–4的证明(见SI附录S2.5和S2.6节)采用矩方法,通过将响应分布的观测矩与噪声幅度幂次的截断泰勒展开式相匹配来恢复模型组成部分 。该策略在很大程度上可恢复真实模型,其误差反映了偏离小噪声区域的程度。我们的模拟实验表明,即使在有限噪声情况下,且仅拥有有限样本数据集时,结论依然成立。
拟合程序
我们采用文献(6)中引入的拟合程序:在给定损失函数的前提下,通过最大化数据在模型下的似然值,联合拟合编码、先验、运动噪声和感觉噪声幅度以及猜测率。先验和编码在刺激空间 X的离散网格上进行指定。根据文献(6),在图1–7的模型中,网格大小为180;在图8的模型中,网格大小为200。
与文献(6)一致,拟合程序包含正则化项,以鼓励先验和编码的平滑拟合。对于图2–7中的合成数据,我们使用了与文献(6)对文献(35)收集的数据所用相同的正则化强度。在图8中,我们使用了与文献(6)对原始数据拟合时相同的正则化强度。
请注意,该方法即使在小噪声区域之外也适用,这使我们能够验证理论结论在此区域之外的普适性。
模拟
根据文献(6),模拟数据集包含高斯(或冯·米塞斯)运动噪声和猜测成分。对于所有在圆形刺激空间上的实验,运动噪声幅度和猜测率均取自文献(6)对文献(35)数据的拟合结果。我们同样采用该拟合得到的感觉噪声幅度;重点关注对应于40ms、80ms、160ms和1000ms呈现时长的四个噪声水平,因为我们发现这四个水平在很大程度上足以实现可识别性。
模拟数据中的试验次数如图2所示,图3中为10K次,图4中为10K次,图5中则如图中标注所示。
![]()
在图7中,我们对五个随机种子下的NLL进行了平均,以实现数据集的降采样。
在图8中,单峰模型的参数取自文献(6)对行为数据的拟合结果。双峰模型的参数除先验外其余均相同。在图8中,所有拟合均假设编码符合韦伯定律,与文献(6)对该数据集的分析一致。相应的模型拟合统计量(见SI附录,图S34)表明,即使不预设特定编码形式,双峰模型也是可识别的。
实验数据
本文所使用的实验数据来自文献(35)和(38)。数据收集与分析过程中,实验条件对研究者并非设盲。
朝向感知实验(35):49名受试者通过调整一条蓝色条带,复现一个Gabor斑块的朝向。在大多数试验中,刺激朝向呈均匀分布,但在特定子集中,刺激朝向固定为0°、45°、90°或135°;我们遵循文献(6)的做法,排除了这些特定试验。根据试验不同,刺激呈现时长分别为20 ms、40 ms、80 ms、160 ms 或 1000 ms。在10%的试验中未呈现任何刺激;这些试验也被排除。在20 ms、40 ms、80 ms 和 160 ms 条件下,各有2,208次试验;在1000 ms条件下有1,104次试验。总计纳入9,936次试验。
时间间隔实验(38):15名受试者在实验1和实验2中执行“准备–设定–开始”(Ready-Set-Go)任务,复现时间间隔。不同实验阶段的区别在于:受试者要么直接复现原始时间间隔(Identity 条件),要么复现其按0.75或1.5倍缩放后的时间间隔;我们仅纳入Identity条件下的数据。总计纳入8,999次试验。
原文链接:https://www.biorxiv.org/content/10.1101/2025.06.25.661321v1.full.pdf
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.