Transformer注意力的贝叶斯几何(贝叶斯注意力三部曲 Paper I)
The Bayesian Geometry of Transformer Attention
https://arxiv.org/pdf/2512.22471
![]()
ransformer 模型在上下文中常常表现出类似贝叶斯推理的行为,但要严格验证这一点一直不可能:自然数据缺乏解析形式的后验分布,而大型模型又将推理与记忆混杂在一起。我们通过构建“贝叶斯风洞”(Bayesian wind tunnels)来解决这一问题——即受控环境中真实后验分布具有闭式解,且记忆被证明是不可能的。在这些设定下,小型 Transformer 能以 10⁻³–10⁻⁴ 比特的精度复现贝叶斯后验分布,而容量匹配的多层感知机(MLP)则误差高出数个数量级,从而确立了明确的架构差异。
在两个任务中——双射消除(bijection elimination)和隐马尔可夫模型(HMM)状态追踪——我们发现,Transformer 通过一种一致的几何机制实现贝叶斯推理:残差流(residual streams)充当信念的载体,前馈网络(feed-forward networks)执行后验更新,而注意力机制则提供基于内容的路由功能。几何诊断揭示出正交的键(key)基底、逐步对齐的查询–键(query–key)关系,以及一个由后验熵参数化的低维值(value)流形。在训练过程中,该流形逐渐展开,而注意力模式保持稳定——这种“框架–精度解耦”(frame–precision dissociation)正是近期梯度分析所预测的现象。
综上所述,这些结果表明:层级化注意力机制通过几何设计实现了贝叶斯推理,既解释了注意力机制的必要性,也说明了扁平架构(如 MLP)为何失败。“贝叶斯风洞”为从机制上将小型、可验证系统与大型语言模型中观察到的推理现象联系起来奠定了基础。
1 引言
Transformer 是否真正执行贝叶斯推理,还是仅仅通过模式匹配来模仿它?自然语言缺乏可用于验证预测的真值后验分布,而现代大语言模型(LLM)又过于庞大且与其训练数据高度纠缠,无法将真实的概率计算与记忆区分开来。即使模型表现出贝叶斯行为,我们也无法直接确认其内部计算是否符合贝叶斯规则。
我们的方法:我们用“贝叶斯风洞”替代无法验证的自然数据——即一类受控的预测任务,其中:(1) 每一步的解析后验分布都精确已知;(2) 假设空间极其庞大,使得记忆成为不可能;(3) 上下文中的预测必须依赖真正的概率推理。
这将一个定性问题(“它是否执行贝叶斯推理?”)转化为一个定量检验:模型的预测熵是否在每个位置上都与解析后验熵相匹配?
两类风洞:我们研究了两个难度递增的设定:• 双射学习(Bijection learning):一个具有闭式后验的离散假设消除问题。• 隐马尔可夫模型(HMMs):一个需要递归更新的序列化随机推理问题。
在这两类任务中,Transformer 均达到了机器级的贝叶斯一致性,而采用相同容量、相同训练方式的 MLP 则在两类任务中均遭遇灾难性失败。
机制性发现。在不同任务中,Transformer 通过一个统一的三组件架构实现贝叶斯推理:(1) 残差流作为信念状态:后验信息逐层累积;(2) 前馈网络(FFN)作为贝叶斯更新:FFN 执行后验分布的数值计算;(3) 注意力机制作为路由:查询–键(QK)几何结构为每次更新检索信念中相关组成部分。
几何诊断揭示出正交的键(key)轴、逐步对齐的查询–键关系,以及一个在训练过程中展开的一维值(value)流形。这些观察结果与近期基于梯度的 Transformer 学习分析所做出的预测相吻合。
贡献。本文首次提供了实证证据,证明 Transformer 能够实现精确的贝叶斯后验分布;识别出实现这一能力的几何机制;并引入“贝叶斯风洞”作为一种工具,用于在小型、可验证的环境中探查算法推理过程。
关于“贝叶斯推理”的澄清。我们并非声称网络权重上存在贝叶斯后验;我们所展示的是,所学习到的预测器实现了对任务潜在变量的贝叶斯后验预测——即在 HMM 中对隐状态的滤波后验,或在双射任务中对可能映射的消除后验。这是一种关于 Transformer 所计算的输入–输出函数的陈述,而非关于权重空间不确定性的陈述。
2 理论框架:交叉熵与贝叶斯推理
在上下文预测任务中,交叉熵训练具有一个众所周知的总体最优解:即贝叶斯后验预测分布。本节对该联系进行形式化描述。该理论确立了在无限数据、无限容量极限下,所学习函数应当是什么;而实证部分则评估哪些架构能在有限设置下逼近它。
2.1 设定
考虑一组由潜参数 θ ~ π(θ) 索引的任务。对于每个任务:
![]()
2.2 交叉熵最小化收敛于贝叶斯后验预测分布
定理 1(交叉熵的总体最优解):式 (1) 的最小化器是贝叶斯后验预测分布。
![]()
![]()
2.3 在双射风洞中的应用
在双射任务中,每个 是一个双射 : {1, . . . , } → {1, . . . , }。一个训练序列揭示了 −1 个输入—输出对。令 Oₖ₋₁ 为已观测到的输出集合。由于每个输入在每条序列中至多出现一次,当前查询 ₖ 之前从未出现过,因此贝叶斯规则简化为:
![]()
这种闭式后验分布允许直接逐位置比较模型熵与贝叶斯熵;由于假设空间大小 V! 极其庞大,记忆是不可能的。
2.4 在 HMM 风洞中的应用
![]()
由于每条训练序列都是由新采样的 (, ) 生成的,假设空间极其庞大,因此记忆是不可能的。模型必须学会:(i) 解析编码了 和 的头部信息,以及 (ii) 实现递归的贝叶斯更新。
2.5 对模型评估的启示
上述理论结果引出一个实用的诊断方法:若一个模型在每个位置上都达到了正确的后验熵,则该模型在功能上是贝叶斯的——它所产生的预测具有与精确后验相同的不确定性分布。结合交叉熵训练目标(其唯一的总体最小化器即为贝叶斯后验预测分布),低熵校准误差为模型执行了贝叶斯计算提供了有力证据。
![]()
3 实验设计
我们通过将小型 Transformer 置于两个受控的“贝叶斯风洞”中,来评估其是否能够实现精确的贝叶斯推理。在这些环境中,记忆是不可能的,且解析形式的后验分布具有闭式解。两项任务——双射学习(bijection learning)和隐马尔可夫模型(HMM)状态追踪——分别考察了不同类型的推理结构:双射任务要求进行离散假设消除;HMM 任务则要求递归地整合随机状态转移与观测似然。
![]()
我们使用平均绝对熵误差(Mean Absolute Entropy Error, MAE)来衡量这一匹配程度:
![]()
其中,L 是监督预测位置的数量。由于每个训练实例都使用一个新的双射或一个新的 HMM,记忆化是不可行的;模型必须执行真正的上下文内推理。
3.1 任务1:双射学习
每个序列都源自一个新的随机双射 π: {1, …, V} → {1, …, V},其中 V = 20。在位置 k 处,模型已观察到 k−1 个不同的输入-输出对,并且必须预测 π(xₖ)。由于输入从不重复,π(xₖ) 的贝叶斯最优后验分布在其 V−k+1 个未见值上是均匀分布的。
![]()
3.2 任务2:隐马尔可夫模型状态追踪
第二个风洞探测了一种定性上不同的推理结构:递归信念更新。每个序列都源自一个新的 HMM,该 HMM 具有 S = 5 个隐藏状态和 V = 5 个观测符号。转移行和发射行均独立地从一个对称的狄利克雷分布中抽取,所有浓度参数均等于 1(即,Dirichlet(1, 1, 1, 1, 1)),以确保动态多样且非退化。
序列格式。每个序列包含:
- 一个由10个标记组成的头信息(header),用于编码扁平化的 T 和 E,以及
- K 个观测—预测对,每一对包含:
- 观测到的符号 oₜ,
- 在同一位置对 p(sₜ | o₁:ₜ) 的监督预测。
贝叶斯真实值:前向算法。对于每个 HMM 及每个时间点 t,我们计算
![]()
评估长度。模型在具有 K = 20 个预测位置的序列上进行训练,并在以下条件下进行评估:
- K = 20(验证:在训练范围内),
- K = 30(1.5 倍训练长度),
- K = 50(2.5 倍训练长度)。
这用于测试模型是否学习到了一种与位置无关的递归算法,或者仅仅是记住了有限范围内的计算。
为何记忆化不可行。每个序列均使用新的 T、E 矩阵以及新的随机发射轨迹。即使在粗略离散化的情况下,可能的 HMM 空间也超过 10⁴⁰,从而确保所学行为不能依赖于对任何特定 HMM 的回忆。
3.3 架构
Transformer。我们使用小型但现实的 Transformer 堆栈:
- 双射 Transformer(2.67M 参数):6 层,6 个头,d_model = 192,d_ffn = 768。
- HMM Transformer(2.68M 参数):9 层,8 个头,d_model = 256,d_ffn = 1024。
两者均使用学习到的词元嵌入、学习到的绝对位置嵌入、预归一化残差块和标准多头自注意力机制。
容量匹配的 MLP 基线。为了隔离注意力的作用,我们训练具有以下配置的 MLP:
- 18–20 层,
- 宽度 384–400,
- 残差连接和层归一化,
- 与 Transformer 相同的嵌入层和训练协议。
参数数量在 1% 范围内与 Transformer 匹配。这些 MLP 作为对照组,用于检验分层注意力对该任务是否必不可少。
3.4 训练协议
对于每个任务,不同架构的训练过程完全相同。
优化。使用 AdamW 优化器,其中 β₁ = 0.9,β₂ = 0.999,权重衰减为 0.01,梯度裁剪阈值为 1.0。
学习率。
- 双射任务:恒定学习率为 10⁻³。
- HMM 任务:3 × 10⁻⁴,配合 1000 步预热和余弦衰减。
数据采样。每个批次均抽取新的双射或新的 HMM;序列从不重复。
教师强制。在每个监督预测位置应用交叉熵损失。
消融稳定性。按层和按头的消融结果报告为三个随机种子的平均值;HMM 长度泛化结果也跨多个种子进行评估,以确保鲁棒性。
4 结果:Transformer 跟踪贝叶斯后验
我们通过两个行为测试评估 Transformer 是否位于解析贝叶斯流形上:(1) 逐点校准——模型熵 H_model(t) 在每个位置是否与贝叶斯熵 H_Bayes(t) 匹配?(2) 泛化能力——所学计算能否扩展到未见过的双射、未见过的 HMM 和更长的序列?
我们并行呈现双射和 HMM 的结果,随后是 MLP 对照组和多种子鲁棒性分析。
4.1 双射风洞:精确假设消除
一个参数量为 2.67M 的 Transformer 以接近机器精度收敛至解析后验分布。图1 展示了预测熵。
![]()
![]()
按序列的证据。聚合校准可能掩盖平均化带来的伪影。图2 绘制了八条独立的熵轨迹。每条轨迹均显示特征性的阶梯状模式:每当一个新的输入-输出对消除了假设时,熵会离散地下降;当输入重复且映射已知时,熵会坍缩至接近零。该模型执行的是逐步贝叶斯消除,逐序列重现曲线序列,而非仅仅在期望值上匹配。
![]()
模型内部一致性。按层消融(图3)表明,移除任意一层都会使误差增加一个数量级以上,证实了其深层组合式计算特性。按头消融(图4)识别出一个位于第0层的“假设框架”注意力头,其移除具有独特破坏性,这与第5节中的几何分析一致。
![]()
4.2 HMM 风洞:递归贝叶斯状态追踪
这个参数量为 2.68M 的 Transformer 同样学会了用于 HMM 推理的前向算法。
在训练范围内(K=20)。当 ≤ 20 时,模型熵追踪精确的前向递归熵,其值为
![]()
这两条曲线在视觉上几乎无法区分(图5)。
![]()
超出训练范围(K=30,K=50)。为了测试算法的泛化能力,我们将模型推演至1.5倍和2.5倍的训练长度。Transformer 仍显著接近解析后验分布:
![]()
误差随 t 平滑增加,在 t = 20(训练边界)处无间断。这是模型学习了一种与位置无关的递归算法、而非仅记忆有限范围计算的有力证据。
逐位置校准。图6 显示了绝对误差 |H_model(t) − H_Bayes(t)|。出现三种模式: (1) 早期位置略带噪声(初始状态不确定); (2) 序列中段位置在所有长度下均达到接近零的误差; (3) 后期位置随序列长度平滑退化,与累积数值漂移一致。
![]()
逐序列动态。图7 展示了模型追踪序列特异性波动的情况:当发射信号能强有力地识别状态时熵下降,当观测模糊时熵上升。Transformer 精确捕捉了这些动态。
隐藏状态重标记下的语义不变性。隐藏状态索引纯粹是符号性的:对标签进行置换对应于相同的潜在过程。我们采样一个 {1, …, S} 的随机置换 σ,并通过置换 T 的行和列(即,T′σ(i),σ(j) = Ti,j)以及置换 E 的行(即,E′σ(i),o = Ei,o)将其应用于 HMM 参数。然后我们基于 (T′, E′) 重新计算解析后验,并在由置换后的 HMM 生成的序列上评估模型。如果模型实现的是贝叶斯滤波而非将意义与特定状态 ID 关联,则其熵校准应保持不变,最多只受数值噪声影响。图8 显示了置换前后的平均绝对误差(MAE),结果落在对角线上,ΔMAE 集中在零附近。
![]()
4.3 长度泛化需要后期层注意力
为了识别哪些组件支持稳定的推演,我们训练了一个变体 Transformer,其中顶层两层的注意力被禁用,但前馈网络(FFNs)和残差连接保持完整。
无后期注意力的模型在训练范围内拟合得尚可(1.57 × 10⁻³ 比特),但在推演时失效:
![]()
退化因子从 21 倍(在 K = 20 时)增长至 62 倍(在 K = 50 时),表明后期层注意力对于拟合 K = 20 并非必需,但对于稳定的长时域贝叶斯更新至关重要(图9)。
![]()
4.4 MLP 对照组:注意力机制的架构必要性
在相同条件下训练的容量匹配 MLP,在两个风洞测试中均失败。
双射任务。MLP 达到的平均绝对误差(MAE)约为 1.85 比特——比 Transformer 差约 618 倍——且在 100k 到 150k 步之间未见任何改进。其熵曲线几乎保持平坦,表明它仅学习了输出的边缘分布。
HMM 任务。MLP 在所有长度下均达到约 0.40 比特的平均绝对误差(表1),未显示出任何递归计算的迹象。平坦的逐位置误差分布(图10)表明其退化为一种位置平均近似,而非信念追踪。
![]()
![]()
这些失败不能归因于优化、数据或容量问题。它们反映出缺乏内容寻址路由和残差组合性——而这两者正是注意力机制所提供的关键几何要素。
4.5 多种子一致性
为确保贝叶斯追踪并非初始化或优化噪声造成的伪影,我们在五个独立的随机种子上重复了所有 HMM 实验。所有种子在 K = 20、K = 30 和 K = 50 时的逐位置误差曲线(图11)几乎完全重叠。
![]()
![]()
种子间的差异相比 Transformer 与 MLP 性能之间的差距可忽略不计,这证实所学习的贝叶斯算法对初始化和训练噪声具有鲁棒性。
5 机制:Transformer 如何实现贝叶斯推断
第4节的行为结果表明,小型 Transformer 能够在两个不同的风洞任务中以低于1比特的精度追踪解析贝叶斯后验分布。我们现在考察这一计算在内部是如何实现的。来自消融实验、QK 几何结构、探测动态和训练轨迹的证据揭示了一种一致的架构机制:Transformer 通过构建一个表征框架,在该框架内执行序列式假设消除,并逐层逐步精炼后验精度,从而实现贝叶斯推断。
5.1 第0层构建假设框架
计算始于一项结构性操作:第0层的注意力机制构建了所有后续推断发生所依赖的假设空间。该层的键(Keys)在输入标记上形成近似正交的基底(图14),为后验概率质量的表示与操作提供了一个坐标系。
![]()
按头消融实验确认了这一步骤的不可或缺性。一个单一的第0层“假设框架头”主导了该层的贡献(图4),仅移除该头便严重破坏校准效果。此处“假设框架头”指其键(Keys)在假设标记上张成近似正交基底、其值(Values)在残差流中实例化对应每个假设槽位的注意力头。其他任何注意力头均未表现出类似的敏感性。这揭示了一个结构性瓶颈:构建假设框架是后续所有贝叶斯计算的前提条件。
一旦建立,该框架在整个训练过程中保持稳定。第0层的注意力图谱在不同检查点之间变化极小,即使值流形和校准性能已显著提升。因此,模型在早期即学习了推断问题的几何结构,并随后在此固定框架内精炼数值精度。
5.2 跨深度的序列式贝叶斯消除
在假设框架建立之后,中间层逐层执行一个与贝叶斯消除相仿的过程。
QK 逐步锐化。随着网络深度增加,查询(Queries)越来越强地对齐于与观测证据一致的键(Keys)子集(图15)。早期层注意力分布较广;深层则几乎完全将注意力集中在可行假设上。这种几何聚焦过程与解析贝叶斯条件化平行:不一致的假设权重逐渐趋近于零。
层级组合性。按层消融实验(图3)表明,移除任意单一层(包括注意力与前馈网络,按实际实现方式)会使校准误差增加一个数量级以上。这表明该计算并非浅层或冗余的:每一层都提供一个独特且不可互换的精炼步骤,共同构成贝叶斯更新的序列式、组合式实现。
综上,这些观察表明,Transformer 并非通过单一变换实现贝叶斯消除,而是通过在第0层框架内逐层进行投影与精炼的深度序列来完成。
5.3 注意力作为内容寻址路由
在所有深度上,注意力机制扮演着一致的几何角色:它检索与下一次更新相关的信念状态组件。
三个观察支持这一路由解释:
- 正交键(图14)为假设的内容寻址查找提供了基础。
- 跨深度的 QK 对齐锐化(图15)将残差流中的信息导向可行假设子空间。
- 在后期精炼阶段保持稳定的路由(图16 和 17)表明,一旦框架正确建立,即使校准性能持续提升,注意力图谱也几乎不再变化。
![]()
路由对于维持稳定的递归推断同样至关重要。在 HMM 任务中,仅禁用顶层两层的注意力时,模型在训练范围内的表现基本完好,但长时域推断会崩溃(图9)。因此,注意力既对构建初始假设框架是必需的,也对在扩展推演过程中维持稳定的信念更新是必需的。
5.4 值空间流形与精度精炼
在路由稳定之后,最终层精炼后验表示的精度。图16 和 17 显示:
- 在中间检查点,低熵状态的值表示已近乎坍缩,无法可靠地编码剩余小假设集之间的区别。
- 到最终检查点时,这些状态沿一条由后验熵参数化的平滑一维流形分布。
这种几何展开使后验置信度得以细粒度编码,并解释了后期位置校准性能的提升。重要的是,这种精炼发生在注意力图谱几乎不变的情况下,从而产生清晰的“框架—精度分离”:注意力定义信息流向何处,而下游变换则精炼信念被编码的精确程度。
![]()
5.5 综合:一种三阶段架构机制
在两个风洞任务中,证据均汇聚于一个三阶段机制(图18):
![]()
(1) 基础绑定(第0层)。构建一个正交假设框架。(键几何结构;灾难性的第0层头消融实验。)
(2) 渐进式消除(中间层)。通过逐步锐化 QK 对齐,依次抑制不一致的假设。(按层组合性;几何聚焦。)
(3) 精度精炼(后期层)。在保持路由固定的条件下,在平滑的值流形上编码后验熵。(值流形展开;框架—精度分离。)
该结构映射了贝叶斯条件化的解析分解:定义假设空间,依据证据更新信念,并随着不确定性降低而精炼置信度。
5.6 与梯度动力学预测的关系
这些经验观察结果与近期关于梯度动力学分析所作的预测相吻合,即一旦正确的路由结构形成,注意力分数趋于稳定,而值和残差表示则持续精炼精度。所观察到的注意力图谱稳定性,连同值流形的展开,为这种路由与精度的“差异性收敛”提供了直接证据。
6 分析与讨论
风洞实验表明,小型 Transformer 在仅使用标准优化方法、且未进行任何架构修改的情况下,能够以惊人的保真度实现贝叶斯推断。在本节中,我们将讨论这些结果对可解释性、架构必要性以及受控风洞实验与大型语言模型行为之间关联的更广泛意义。
6.1 为何分层注意力实现贝叶斯推断
在双射和 HMM 设置中,第5节所揭示的内部几何结构展现出一种一致的计算模式。Transformer 通过一系列堆叠的几何操作实现贝叶斯条件化:
(1) 基础绑定(第0层)。正交键构建一个假设框架。移除第0层“假设框架头”所带来的灾难性影响(图4)表明,该框架在结构上是不可或缺的。
(2) 渐进式消除(中间层)。QK 对齐随深度增加而锐化(图15),这与解析贝叶斯更新中对被排除假设的乘法抑制相呼应。按层消融实验(图3)表明,每一层都贡献一个不可互换的精炼步骤。
(3) 精度精炼(后期层)。一旦路由稳定,值表示会展开为一个由后验熵参数化的低维流形(图16),尤其在后期位置显著提升校准效果(图17)。这种“框架—精度分离”反映了劳动分工:注意力确定信息流向何处,而后续变换则精炼信念的数值精度。
这一层级结构与贝叶斯法则平行:定义假设空间、整合证据、并精炼后验分布。Transformer 利用注意力几何和残差流表示来实现这些步骤。
6.2 深度作为组合性必要条件
消融研究得出的一个核心结论是:深度并非冗余。在两个风洞任务中,移除任意单一层都会使校准误差增加一个数量级以上(图3)。这表明贝叶斯推理表现为一系列组合式投影,每一层以无法压缩为单一变换的方式精炼信念状态。
这与宽而浅的架构形成鲜明对比:即使参数量相当且训练方式相同,MLP 也无法执行假设消除或状态追踪(第4.4节)。贝叶斯推断需要分层精炼,而 Transformer 通过深度和残差组合提供了适当的归纳偏置。
6.3 从风洞实验到自然语言
尽管风洞实验是刻意简化的,但它们捕捉了概率推断的核心结构:随时间整合证据以更新潜在信念。大型语言模型在更为复杂的环境中运行,其潜在空间维度更高,且证据具有模糊性、多模态特性。然而,此处观察到的几何要素——正交假设轴、逐层精炼和稳定路由——属于结构性特征,而非任务特定特征。
因此,这些结果表明,大型语言模型(LLMs)所表现出的概率行为,可能不仅源于规模或数据丰富度,也源于架构几何结构。风洞实验提供了一个可验证的下界:它们证明当后验分布已知时,Transformer 确实能够精确实现贝叶斯推断。
6.4 架构必要性与 MLP 的失败
容量匹配的 MLP 对照组澄清了哪些架构组件是必需的。即使参数量相似、数据暴露相同,MLP 在两个风洞任务中均灾难性地失败,熵误差高达约 0.4 比特(表1)。这些失败并非源于优化困难:任务简单、梯度表现良好、训练过程平稳收敛。
相反,这一差距反映了以下要素的缺失:
- 假设的内容寻址检索,
- 通过深度实现的组合式精炼,
- 支持长时域推断的稳定路由结构。
Transformer 成功的原因在于注意力机制提供了 MLP 所缺乏的几何机制——正交基底、选择性路由和渐进聚焦。因此,匹配容量的 MLP 的失败清晰地证明,在所测试的架构中,注意力对于上下文中的贝叶斯结构学习是必不可少的。
6.5 大型语言模型推理能力的一个下界
风洞实验为 Transformer 中的机制化推理建立了一个有原则的基准。如果一个模型在后验分布封闭且无法记忆的设定下都无法实现贝叶斯推断,则它在自然语言中具备真实推断能力的证据就十分有限。反之,小型、可验证的 Transformer 在此成功——并展现出可解释的几何机制——这暗示类似结构可能支撑着大型模型中的推理能力。
这提供了一个具体的研究方向:在前沿大型语言模型中寻找相同的几何特征。本文使用的诊断工具——键的正交性、QK 锐化、值流形结构以及路由稳定性——为分析预训练语言模型提供了可检验的预测。
7 相关工作
7.1 深度学习的贝叶斯解释
长期以来,大量研究从贝叶斯视角解释神经网络,从对预测不确定性的经典分析 [10, 12],到后验推断的变分或随机近似方法 [3, 7]。近期一些论文指出,在大数据极限下,最小化交叉熵隐式地以贝叶斯后验预测为目标 [15, 16]。这些结果关注的是在总体(population)层面上训练应当产生什么。我们的贡献是互补的:我们构建了一个受控环境,其中真实后验分布已知、记忆化不可行,并且可以直接检验一个有限规模的 Transformer 是否确实实现了这一贝叶斯计算。
7.2 上下文内学习与算法泛化
已有研究表明,Transformer 能在上下文中执行算法任务,包括算术运算 [6]、合成归纳 [5] 以及更一般的模式外推 [2, 13]。从行为上看,这些模型常表现出类似贝叶斯学习者的特性,这一观察已被近期的解释性理论形式化 [15, 16]。然而,以往工作无法区分真正的贝叶斯计算与习得的启发式策略或记忆化的模板,因为自然语言任务中真实后验分布是未知的。我们的风洞方法解决了这一识别问题:通过构建具有解析闭式后验且假设空间组合爆炸的任务,我们得以直接对模型预测与贝叶斯规则进行逐点比较。这将讨论从相关性推进到了机制层面。
7.3 机制可解释性与注意力几何
对 Transformer 的机制研究已揭示出专门用于归纳、复制和检索的注意力头 [4, 11]。其他工作则考察了 QKV 空间、电路分解,以及训练过程中出现的稀疏结构 [13]。这些研究为模型行为提供了定性及电路层面的洞察。
我们的贡献在于,在后验已知的设定下,将这些几何结构直接关联到贝叶斯推断。我们表明:键(keys)形成近似正交的假设轴;查询(queries)随网络深度逐步聚焦于可行假设;值(values)表示则展开为一维的熵流形。这以严格的方式将机制可解释性与概率计算联系起来:实现贝叶斯推理所需的内部几何结构变得直接可见。
7.4 架构比较
其他序列模型——状态空间架构 [8, 9]、卷积变体 [14] 和深度 MLP——在自然文本上的困惑度(perplexity)常与 Transformer 相当。但困惑度混淆了建模能力与推理能力。我们的结果提供了一种更精细的检验:在严格的非记忆化约束下,某架构是否能复现解析贝叶斯后验。容量匹配的 MLP 对照组明确表明,至少相对于扁平的前馈架构,基于注意力的路由对于上下文中的贝叶斯结构学习是必不可少的。
7.5 训练动力学
最后,同期工作分析了训练过程中生成这些结构的梯度动力学 [1]。他们表明,注意力与值的更新遵循耦合规律,从而产生一个稳定的路由框架和一个逐步精炼的值流形。我们的实证发现与此图景一致:注意力早期即趋于稳定,而值向量则持续以更高分辨率编码后验分布。综合来看,这些视角将优化轨迹与实现贝叶斯推断的几何结构联系了起来。
8 局限性与未来工作
我们的实验有意保持小规模:使用具有解析后验分布的受控贝叶斯风洞、较小的词汇量,以及参数量为200万至300万的小型Transformer。正是这种设定使得机制验证成为可能,但同时也自然地抽象掉了自然语言推理的全部复杂性。因此,仍存在若干局限性,而这些局限性直接指向未来的拓展方向。
推理任务的规模与丰富性。双射和隐马尔可夫模型(HMM)捕捉了贝叶斯计算的核心要素——离散假设消除与递归状态追踪——但它们仅代表大型语言模型所面对的推理问题中一个狭窄的切片。未来的风洞实验可纳入更丰富的潜在变量结构,包括卡尔曼滤波、分层贝叶斯模型或因果图模型,这些模型均具有闭式后验分布,从而允许精确验证。
假设空间的维度。尽管两个任务中的假设空间已足够大以防止记忆化,但其表征维度仍然有限(例如,HMM 中仅有5个隐藏状态)。在具有高维潜在变量的更大系统中测试我们观察到的几何机制——正交假设轴、逐层Q–K锐化、值流形精炼——是否能随维度平滑扩展,将是一个重要方向。
与大规模预训练模型的联系。我们提出的几何诊断工具(键的正交性、注意力得分梯度结构、值流形)可作为对前沿大语言模型(LLMs)的可检验预测。在自然文本上训练的大模型中是否也会出现类似的贝叶斯流形,仍是一个开放问题。下一步自然的做法是将这些工具直接应用于预训练Transformer的各层,这或许能揭示近似贝叶斯结构在更复杂场景中如何显现。
架构的普适性。本实验使用的是标准Transformer。尚不清楚其他架构——如状态空间模型、带有更复杂门控机制的深度MLP,或混合循环-注意力系统——是否也能形成类似的贝叶斯流形。风洞评估可提供一个基于推理保真度(而非仅困惑度)的原理性基准,用于架构间的系统比较。
训练动力学与相变。一个显著的实证现象是“框架—精度解耦”:注意力图谱早期即趋于稳定,而值流形则持续展开并精炼后验精度。对这些阶段进行系统研究——框架何时形成、精度提升的速度、以及这些动态如何依赖于网络深度、宽度和数据复杂性——有望推动形成关于Transformer中表征形成的更一般理论。
迈向自然语言风洞。最终,我们的目标是理解此处所展示的精确贝叶斯推理如何与自然语言任务中观察到的近似推理相关联。风洞实验提供了一个下界:它确立了当问题定义良好时,Transformer 能够实现贝叶斯更新。下一个挑战是设计嵌入于自然语言数据中的受控任务,在引入现实世界模糊性的同时,仍保留可解析的结构。
9 结论
我们提出了贝叶斯风洞——一种具有解析后验分布和组合爆炸式假设空间的受控实验环境——用于检验 Transformer 是否真正实现了贝叶斯推断,而不仅仅是对其行为的模仿。在两类根本不同的推理问题上——离散双射的假设消除与隐马尔可夫模型(HMM)中的序列状态追踪——小型 Transformer 均以低于1比特的校准误差收敛至精确的贝叶斯后验,即便在远超训练长度的序列上亦是如此。容量匹配的 MLP 在两种设定下均灾难性失败,表明这种能力源于注意力机制的几何结构,而非模型规模或优化技巧。
几何诊断提供了统一解释:键(keys)在假设空间上形成近似正交基底;查询(queries)随深度逐步对齐于该基底中的可行区域;值(values)则沿一条由后验熵参数化的低维流形组织起来。训练过程塑造了这一流形:注意力模式早期即趋于稳定,而值表示则持续精炼后验精度——这种“框架—精度解耦”现象与同期关于梯度动力学的理论预测一致。这些机制共同实现了贝叶斯条件化的核心组成部分:绑定(binding)、消除(elimination)与精炼(refinement),并以跨深度的一系列结构化线性变换形式表达出来。
风洞设定虽有意简化,却确立了一个清晰的下界:如果一个模型在后验已知且无法记忆的环境中都无法实现贝叶斯推断,那么它在自然语言中也不可能做到。反之,我们的结果表明,当任务允许验证时,Transformer 的几何结构足以实现精确的贝叶斯推断。这为研究更大模型中的近似推理提供了原理性基础,并提出了具体、可检验的预测——正交假设轴、逐层Q–K锐化、值流形结构——可用于分析预训练的大语言模型(LLMs)。
Transformer 在此成功,是因为其架构提供了恰当的归纳偏置,而非依赖规模:残差流承载不断演化的信念状态,注意力机制选择性地路由信息,前馈层则执行局部贝叶斯更新。这些组件共同在模型的表征空间中刻画出一个贝叶斯流形。理解这一流形如何形成、如何随规模扩展、以及在真实语言环境中如何退化,仍是未来工作的重要方向。
原文:https://arxiv.org/pdf/2512.22471
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.