网易首页 > 网易号 > 正文 申请入驻

预测编码扩展深度神经网络:理论与实践

0
分享至

预测编码扩展深度神经网络:理论与实践

Towards Scaling Deep Neural Networks with Predictive Coding:Theory and Practice

https://arxiv.org/pdf/2510.23323



摘要

反向传播(BP)是训练驱动现代人工智能(包括大语言模型)的深度神经网络的标准算法。然而,BP 能效低下,且不太可能被生物大脑所实现。本论文研究了一种替代性、可能更高效的、受大脑启发的算法——预测编码(PC)。与 BP 不同,预测编码网络(PCN)在学习或权重更新之前,需通过神经元活动的迭代均衡来完成推理过程。近期研究表明,这种迭代推理机制相比 BP 具有多项潜在优势,例如训练速度更快。然而,这些优势尚未被一致复现;PCN 的推理与学习动力学机制仍知之甚少;且深层 PCN 在实践中仍难以训练。

本文通过基于优化理论的理论分析,为拓展 PCN 的规模取得了重要进展:第一,我们证明:尽管 PC 显式仅使用一阶梯度的局部更新,但其学习动力学可被理解为一种使用二阶信息的近似信赖域(trust-region)方法;第二,超越该近似框架,我们进一步证明:原则上,PC 能够利用任意高阶信息;特别地,对于全连接网络,PC 实际优化的有效景观远比(均方误差)损失景观更平缓、对梯度消失更具鲁棒性;第三,受对 PCN 推理动力学研究的启发,我们提出一种新型参数化方法——“μPC”,首次实现了在几乎无需调参的情况下,稳定训练超过 100 层的网络,并在简单分类任务上取得与 BP 相当的性能。我们还开源了一个基于 JAX 的 PCN 训练 Python 库。

总体而言,本论文显著深化了我们对 PCN 推理与学习动力学的基础理解;同时指出:若要使 PC 在规模上与 BP 竞争,未来研究亟需聚焦于硬件协同设计更具表达能力的网络架构

1 引言
1.1 论文概述

本论文探讨了一种训练深度神经网络(DNN)的替代方法,而DNN是现代人工智能(AI)的基础模型 [79]。当前神经网络训练的标准方法是所谓的“误差反向传播”算法 [129](BP)。本质上,BP是一种高效计算复杂函数导数的方法,其依赖于专用硬件(如图形处理器GPU)和软件库(如PyTorch [113] 和JAX [18])。然而,BP存在若干固有局限。例如,BP需要存储模型的前向计算图,导致内存和能耗效率低下 [38, 154, 150]。此外,BP是一种无法在模型各层之间并行化的串行算法 [69]。这些局限源于BP内在的非局部性:任意权重的更新都依赖于网络中所有下游层的信息。基于上述及其他原因,BP也被广泛认为“生物学上不可信”,即不太可能在大脑中实现 [28, 89]。

本论文研究的替代算法称为预测编码(Predictive Coding,PC)[157, 131, 98, 99]。PC属于一大类受大脑启发、具有生物学合理性的学习算法,其中包括平衡传播(equilibrium propagation)[138, 177]、目标传播(target propagation)[96]、前向学习(forward learning)[58] 等 [30, 114, 111, 88]。尽管这些算法在许多方面有所不同,但它们都共享一个区别于BP的关键特征:局部的、“类赫布式”(Hebbian-like)的权重更新,仅依赖相邻神经元之间的相互作用。

从高层次来看,PC基于这样一个基本思想:大脑的运作方式是通过一个关于环境的生成模型,不断最小化其预测误差。这一思想在计算神经科学中有着悠久历史。最初作为视网膜功能理论被提出 [147],后来发展为一种更通用的大脑信息处理原则 [104, 124, 42, 43, 44]。近年来,自 [21, 14] 的开创性教程起,PC开始被探索作为一种可替代BP、且具有生物学合理性的学习算法。使用PC训练的DNN在分类、生成和记忆联想等简单机器学习任务上已展现出与BP相当的性能 [131, 98, 99]。此外,PC被认为相较于BP具有一系列优势 [146],包括更快的学习收敛速度,以及在在线学习和持续学习等更具生物学现实性的任务中表现更佳。PC网络(PCNs)还支持任意计算图 [133, 22],可执行混合推理与因果推理 [132, 155],并可扩展至处理时序任务 [102]。

然而,本论文试图解决的主要挑战是:如何将PC及其他局部学习算法扩展到非常深(10层以上)的网络,并应用于ImageNet [32] 等大规模数据集(更不用说在万亿级token上训练的大语言模型)。局部算法很可能只有在模拟或神经形态等非传统数字硬件上才能实现实际扩展(即在具备竞争力的计算与内存资源条件下)。我们将在结论部分(§7)再次讨论这一点。尽管如此,本论文将表明,即使在标准GPU上研究PC,我们仍能在此目标上取得显著进展。

我们应对PC扩展挑战的方式是理论与实验相结合。借鉴新兴的深度学习理论领域 [90, 54, 127, 151, 119, 176],我们将采用优化理论视角,并以深度线性网络(DLNs)作为主要理论模型。事实上,本论文的许多贡献在于将针对DLNs的优化理论分析适配到PC框架中。该模型不仅将为实用PCN的推断与学习动态提供最具解释力和预测力的理论(第4–5章),而且首次使我们能够以极少调参、在简单任务上达到有竞争力性能的前提下,将PC扩展至100多层的网络(第5章)。其他贡献(详见下文§1.2)包括:对PC作为信赖域优化器(trust-region optimiser)的新颖诠释(第3章),以及一个用于在JAX中训练PCN的开源Python软件包(第6章)。

1.1.1 结构

本论文结构如下:本章余下部分将详细阐述本博士研究的各项贡献。第2章回顾预测编码网络(PCNs),为后续章节奠定基础。除结论和附录外,其余各章均对应不同的研究论文。第3章提出了一个近似理论,将预测编码(PC)解释为一种二阶信赖域方法。第4章在此理论基础上大幅推进,对PCN的学习景观与动态特性进行了刻画,并得出了令人惊讶且富有洞见的发现。在此基础上,第5章对PCN的推断景观与动态进行了类似分析,并提出了“μPC”——一种新的PCN参数化方法,使得100多层网络的稳定训练成为可能。第6章介绍了JPC,这是一个为训练多种PCN而开发的开源Python库,本论文中的许多实验均基于此库完成。每一章均配有详尽的附录,通常包括相关文献综述、技术推导、实验细节和补充图表。最后,第7章总结全文,讨论本论文的主要启示与局限,并提出一些推测性展望。

1.2 贡献声明

本论文的主要贡献如下,每一项均对应一章及一篇论文(详见表1.1的摘要):


  • 第3章 [63]:我们表明,尽管预测编码(PC)显式地仅使用一阶(梯度)信息,其学习动态可被理解为一种隐式的近似二阶信赖域方法。该理论(i)比以往工作做出更少的假设,(ii)为PC的工作机制提供了新的洞见,(iii)并提出了一些新颖的神经科学解释。此项工作发表于[63],并在ICML 2023“局部学习”(Localized Learning)研讨会上荣获最佳论文奖。相关ICML报告视频可在此处观看。
  • 第4章 [61]:在上述工作的基础上大幅推进,我们通过刻画PC实际学习所依赖的有效损失景观的几何结构,发展出一套更为精确的PCN学习动态理论。针对全连接(非残差)网络,我们证明PC实际上是在一个重缩放后的均方误差损失上进行学习,该损失在特定条件下比原始损失更容易优化。我们的理论(i)纠正了文献中先前的一个错误,(ii)对看似矛盾的已有发现提供了统一解释,(iii)并提出了若干新预测,且已通过实验验证。该工作已被NeurIPS 2024接收[61],并随后作为“机器学习2025”特刊的一部分,发表于《统计力学杂志:理论与实验》(Journal of Statistical Mechanics: Theory and Experiment)。
  • 第5章 [60]:我们发展了一套类似的PCN推断景观与动态理论,证明(i)随着模型规模(宽度,尤其是深度)和训练时间的增加,推断景观会变得越来越病态(ill-conditioned);(ii)标准PCN的前向传播随深度增加趋于消失或爆炸。受这些发现启发,我们提出了μPC——一种新的PCN参数化方法,首次实现了在极少调参的情况下稳定训练100多层的网络,并在简单分类任务上达到有竞争力的性能。据我所知,此前尚无任何局部性或受脑启发的学习算法成功训练过如此深度的网络。这项工作为未来扩展PC奠定了基础,已被NeurIPS 2025接收。
  • 第6章 [62]:我们推出了JPC [62]——一个基于JAX、用于训练多种PCN的Python库。JPC已在 https://github.com/thebuckleylab/jpc 开源,包含大量示例和详细文档。

尽管本论文作者是上述所有工作的主要贡献者,但为明确起见,各章末尾均包含一个专门说明具体作者贡献的小节。此外,我们还指出一项未纳入本论文的博士期间成果:“A Simple Generalisation of the Implicit Dynamics of In-Context Learning”,该论文已被NeurIPS 2025 “What Can(’t) Transformers Do?” 研讨会接收。

总体而言,本论文显著深化了我们对PCN中推断与学习及其相互作用机制的理解,并对扩展PC及其他基于能量的学习算法具有明确的实际意义(详见第7章讨论)。任何未来试图进一步扩展或深入理解PCN的工作都将受益于本研究。

2 预测编码网络(PCNs)

在本章中,我们将回顾预测编码网络(PCNs),作为后续章节的基础。但请注意,我们的目标是使每一章都自成体系,因此关键方程将被重新呈现。



其中,B 是批大小,或在训练过程中任意时刻拟合的数据点数量。为简化起见,我们通常会省略数据索引 i。公式 2.1 并非可写出的最通用形式的 PC 能量函数,因为人们也可以假设不同的层间函数(而非全连接)、每层多个变换以及非单位协方差。然而,本论文将专注于此公式化形式(及其细微变体),以忠实于实践中训练的典型 PCN。另请注意,公式 2.1 可被重写,以定义每个神经元的能量,这不可避免地会导致关于活动和权重的局部梯度。我们将使用来表示所有权重,其中 p 为参数总数;并用 表示所有自由变化的活动,其中 H = L - 1 为隐层数量。我们还将根据上下文使用下标来索引层或时间步。

出于理论研究目的,我们通常(但并非总是)会研究深度线性网络(DLNs)¹,假设每一层 ℓ 的激活函数均为恒等函数 φℓ = I。选择这一模型有两个主要原因:首先,线性特性使数学分析在许多方面更易于处理;其次,正如 [137] 最初著名地展示的那样,DLNs 已被证明是研究非线性网络的一个有用模型。正如我们将在第 4 和第 5 章看到的,尽管 DLNs 只能学习线性表示,但它们具有与非线性对应物相似的非凸损失景观和非线性学习动态。

PCN 训练。要训练一个 PCN,生成模型的观测值需要被钳制到某些目标数据上,即 zL := y ∈ ℝᴺᴸ。这可以是一个用于分类的标签,或一张用于生成的图像,这两种设置通常分别被称为判别式 PC 和生成式 PC。在监督学习(相对于无监督学习)中,第一层也被固定为某个输入,即 z0 := x ∈ ℝᴺ⁰。本论文的实验将聚焦于(监督)判别式设置,但该理论通常可推广至任何设置。请注意,不同论文会根据所关注的具体设置而使用不同的符号和术语。

一旦网络输出(以及可选的输入)被钳制到某些数据上,能量(公式 2.1)会以一种双层期望最大化的方式被最小化 [31],我们将在下文详细解释。

推断。在第一阶段,给定某些权重 θₜ,我们针对网络的活动(activities)来最小化能量:




其中,∇θF 是能量关于权重的梯度,Pt 是某个预条件矩阵,η 是全局学习率。请注意,通过选择单位预条件矩阵 Pt = I,可以恢复标准的梯度下降法(GD)。这一阶段被称为“学习”,原因显而易见,在实践中通常使用 Adam 优化器 [76] 来执行。在一次权重更新后,我们用一个新的数据批次重新开始优化循环(为简化起见,此处未展示),并重复此过程,通常直到我们在一些预留样本上对测试或泛化性能感到满意为止。参见算法1以获取部分伪代码。这种双层优化的执行方式反映了这样一种直觉:神经元(活动)动力学(公式2.2)比突触(权重)动力学(公式2.3)运行在更快的时间尺度上。


正如上文所提及的,与BP不同,能量的活动梯度和权重梯度都是局部的,仅需相邻神经元的信息。毫不夸张地说,本论文的重点在于理解(并改进)当能量参数化标准DNN时,这些耦合优化问题(公式2.2 & 2.3)。特别是,第3章和第4章关注学习,而第5章则聚焦于推断。需要特别指出的是,以往试图理解PC的研究主要依赖于对能量的功能性分析 [101, 4],忽略了DNN丰富的结构。正如我们将在第4章和第5章看到的,这种结构对于解释、预测和控制PCN的推断与学习动态至关重要。

PCN 测试。根据具体场景和任务目标的不同,PCN 可以通过多种方式进行测试。在任何监督设置下(分类或生成),我们都可以像使用反向传播(BP)一样,通过对给定输入执行一次前向传播来获得预测结果。此外,由于 PCN 实现了一个生成模型,原则上我们可以将网络的任意部分钳制(clamp),并让其推断或“补全”所有未被固定的节点或层的活动状态 [133]。这种方法可用于记忆联想任务中补全被遮蔽的图像、在给定图像的情况下推断标签(从而使单个网络能够同时执行生成和分类任务),或在无监督设置中推断某种潜在表征 [157, 131, 98, 99]。

3 预测编码作为信赖域优化


3.1 摘要

预测编码(Predictive Coding, PC)是一种受大脑启发的局部学习算法,最近被认为在具有生物学意义的任务中相比反向传播(Backpropagation, BP)具有一定优势。尽管已有理论工作主要聚焦于PC在何种条件下可以近似或等同于BP,但标准PC与BP之间的差异仍缺乏深入理解。本文提出一种理论,将PC视为一种使用二阶信息的近似自适应信赖域(Trust-Region, TR)方法。我们证明,PC的权重梯度可被解释为将BP损失梯度朝向由PC推断动态所计算出的信赖域方向进行偏移。该理论表明,PC应比BP更快地逃离鞍点——这一预测我们在浅层线性模型中予以证明,并通过深度网络实验加以支持。本工作为理解PC其他被提出的优点奠定了理论基础。

3.2 引言

近年来,大量研究致力于探索预测编码(PC)在何种条件下可退化为反向传播(BP)。这项工作始于 [160],其指出:在全连接网络(或多层感知机,MLP)上,当先验(输入)相对于观测(输出)被赋予更高权重时,PC可近似BP所计算的梯度。[103] 将该结果推广至任意计算图,包括卷积神经网络和循环神经网络。随后,一种在特定推断时刻更新权重的PC变体被证明在MLP上与BP完全等价 [145],该结论又被 [134] 和 [128] 进一步推广。最终,[100] 在基于能量模型(EBM)的某些平衡性质下,统一了上述及其他近似结果。

另一方面,标准PC(未经任何修改)与BP之间的差异远未被充分理解。[146] 提出,PC(以及更广义的EBM)实现了一种根本不同的信用分配原则,称为“前瞻性配置”(prospective configuration)。根据该原则,神经元首先调整其活动以更好地预测目标,然后更新权重以巩固该活动模式;这与BP中权重优先于活动的做法形成鲜明对比。基于广泛的实证结果,[146] 指出PC相比BP可带来一系列优势,包括更快的学习收敛速度,以及在更具生物学现实性的场景(如在线学习和持续学习)中表现更佳。

部分受到这一概念性原则的启发,近期研究开始发展针对标准预测编码(PC)的理论。例如,[101] 证明了:(i) 在线性情形下,PC 推断的平衡点可被解释为反向传播(BP)前向传播值与目标传播(Target Propagation, TP)[96] 所计算的局部目标之间的平均;(ii) PC 能量函数的任意临界点同时也是 BP 损失函数的临界点。在在线设置下(即数据批次大小为1),[4] 表明:通过对各层活动和参数学习率进行特定重缩放,PC 可近似隐式梯度下降。在我撰写本章所基于的论文期间,[3] 进一步指出:当该近似成立时,PC 对 Hessian 信息敏感(尤其在小学习率情况下)。尽管有这些成果,标准 PC 与 BP 之间的根本关系仍未被完全阐明。

在上述研究基础上,本文进一步表明:PC 可被有效地理解为一种利用二阶信息的近似自适应信赖域(Trust-Region, TR)算法。具体而言,我们指出 PC 的推断阶段可被视为在 BP 损失上求解一个信赖域问题,其信赖域由生成模型的 Fisher 信息定义(见 §3.5)。随后,PC 的权重梯度可被解释为将 BP 计算出的损失梯度朝向该信赖域推断解的方向偏移。我们的理论表明,PC 应比 BP 更快地逃离鞍点——这是信赖域方法的一个广为人知的特性 [27, 29, 167, 85, 105]。我们在一个简化模型中验证了这一预测(§3.4),并在深度网络上提供了支持性实验(§3.6)。

本章其余部分结构如下:在简要介绍 PC 与信赖域方法的相关背景之后(§3.3),我们通过一个简化模型来建立对 PC 与 BP 差异的直观理解(§3.4)。接着,§3.5 提出我们将 PC 视为信赖域方法的理论分析,随后是与该理论一致的实验结果(§3.6)。最后,我们讨论本工作的意义与局限性(§3.7)。所有推导、实验细节及补充图表均移至附录 A。

3.3 预备知识





3.4 一个简化模型



即使在这个简单设定中,我们也能观察到两种算法之间显著的定性和定量差异。特别是,预测编码(PC)似乎能够避开原点处的鞍点,采取一条更直接的路径通向最近的解流形。这一点体现在平衡态能量景观的几何结构中:该景观在朝向鞍点的方向上呈现出更平坦的“陷阱”,而在朝向解谷的方向上则具有更强的负曲率(即“逃逸”方向)。对于这个简化模型,可以很容易地证明:使用(随机)梯度下降法(SGD)时,PC 比反向传播(BP)更快地逃离该鞍点(见定理 A.1)。

更一般地,平衡态能量的梯度场似乎比损失函数的梯度场更贴近解的方向。事实上,图 3.2 显示,平均而言,PC 的更新方向比 BP 更接近且更可靠地指向最优方向(即朝向最近的解)。


我们还观察到,PC 的梯度下降(GD)动态在接近极小值时似乎会变慢。在 1MLP 情形下,可以证明这是因为平衡态能量的极小值流形比损失函数的极小值流形更平坦(见定理 A.2)。一个推论是,在训练过程中,PC 在接近极小值时对权重扰动更具鲁棒性(参见图 A.2),这在更具生物学意义的在线学习场景中可能尤为重要。

总之,在这个简化示例中,我们表明 PC 的推断(公式 3.1)有效地重塑了权重景观的几何结构,使得 GD:(i) 能更快地逃离原点处的鞍点;(ii) 在接近极小值时收敛更慢,但对扰动更具鲁棒性。接下来,我们将提出一个理论来解释这些现象。然而,对这些观察结果更精确、更具洞察力的解释及其推广,将在下一章中呈现。

3.5 PC 作为一种近似的二阶信赖域方法




这一由推断动力学所求得的 TR 解,如何影响 PC 的权重梯度及其学习动力学?回顾可知,在 PC 中权重通常是在活动收敛后才进行更新(§3.3.1)。因此,我们计算在上述刚推导出的近似推断解处评估的能量的权重梯度(详见 §A.3):



3.6 实验

本节报告了一些与假设一致的实验结果,该假设已在1MLP模型中被证明(定理 A.1),并由我们将PC视为信赖域(TR)方法的理论分析所提出(§3.5)——即当使用(S)GD时,PC比BP能更快地逃离鞍点。

3.6.1 深层链式网络


梯度消失/爆炸。我们将在第5章再次讨论这一点。

根据先前的工作 [4, 146],在每次实验中我们都进行了学习率网格搜索,以确保结果的任何差异并非源于PC与BP固有的不同最优学习率(详见 §A.1.2)。下文我们绘制的是训练过程中的损失动态,而非测试结果,因为我们关注的是优化动力学,而非泛化性能。尽管如此,测试损失结果在图 A.3 中有报告。

验证我们的主要预测,我们发现:使用SGD时,PC能够比BP显著更快地训练更深的链式网络(图3.3)。请注意,只要损失停止下降,训练即被终止。对于线性与Tanh激活函数,我们观察到BP的收敛速度会随着层数增加而显著变慢。我们还观察到在深度增加时出现相变现象——这一现象也在深层线性网络的损失动力学中被观察到 [137, 68]。最后,我们注意到BP和PC均无法训练非常深的链式网络(H=15),这可能归因于梯度消失/爆炸问题。




3.7 讨论

总之,我们表明,尽管预测编码(PC)显式地仅使用一阶更新,但它可被理解为一种利用二阶信息的近似自适应信赖域方法。

3.7.1 启示

我们的理论表明,使用 SGD 时,PC 应比 BP 更快地逃离鞍点——这一预测我们在简化模型中得到了验证,并通过深度网络实验提供了支持。这些结果与先前报道的 PC 相较于 BP 的加速现象一致 [146, 4]。例如,[146] 发现,在使用 Adam 优化器训练 Fashion-MNIST 数据集的 15 层 LeakyReLU 网络( N = 64
)时,PC 的收敛速度远快于 BP。在在线学习设置下(批次大小为 1),[4] 也在相对较浅( L = 3 )但更宽( N = 1024
)的 ReLU 网络上进行 CIFAR-10 分类与重建任务时观察到了类似的加速效果。我们的理论从“更快逃离鞍点”的角度为这些结果提供了一种潜在解释。下一章将对此预测进行形式化并加以细化。

更一般地,我们的结果表明,PC 所利用的二阶信息包含了损失景观曲率的相关信息。与此相关,[3] 表明在在线学习设置下,PC 可近似信赖域牛顿法(TRN)。然而需注意,我们的理论不依赖于批次大小,且实验证据表明,即使在大批次情况下,PC 也能利用二阶信息。尽管如此,正如我们下文所述,下一章将揭示该理论的局限性。

虽然我们未深入探讨这一点,但我们的理论也可复现已有的关于 PC 近似 BP 或目标传播(TP)的结果——这些结果依赖于自下而上与自上而下信息之间的比例 [160, 101]。具体而言,调节这一比例可被视为调整信赖域的不同轴向,或等价地,调整逐参数的学习率(参见图 A.5 的示意图)。事实上,由于信赖域方法与线搜索方法之间存在对偶性 [27],我们的理论还可将 PC 解释为一种自适应梯度方法,在概念上类似于 Adam [76] 等当前最先进的深度学习优化器。值得注意的是,已有研究表明,自适应方法相比标准 SGD 也能更快地逃离鞍点 [148, 112]。

[122] 的近期工作表明,我们的理论或许可通过生物数据进行检验。作者指出,在某些假设下,权重更新的几何结构可从权重分布中推断出来,并提出标准 GD 所定义的欧几里得几何与突触权重经验观测到的对数正态分布不一致。这与我们的结果相符:PC 使用的是非欧几里得(自然)几何,其度量由 Fisher 信息给出。然而,要区分不同的非欧几里得几何,似乎需要学习前后的实验数据,因为 [122] 表明,不同的几何结构在不同初始分布下可能导致相同的学后分布。

与此相关,我们的研究也触及了“大脑是否可能近似梯度下降(GD)”这一问题。目前广泛认为,大脑会在某种目标或损失函数上估计梯度 [93, 126, 89, 57, 125]。[125] 建议可通过考察突触变化与特定任务损失的真实梯度之间的相关性来实验检验这一主张。无论 PC 是否是大脑学习的良好模型,我们的结果表明:对局部目标之和(此处为 PC 能量)执行一阶梯度更新,可导致对全局目标的二阶更新。这引出一种可能性:大脑或许可以通过对局部目标之和执行 GD 来利用损失的曲率信息。若果真如此,突触变化可能不会与损失梯度直接相关,而应与二阶更新进行比较。

最后,我们的理论可被视为为“前瞻性配置”(prospective configuration)这一概念性原则 [146] 及其关联的实证优势提供更坚实理论基础的重要一步。将此框架扩展以解释(甚至发现)PC 的其他优缺点(如对小批次的鲁棒性、权重干扰减少等)将十分有趣。然而,在接下来的章节中,我们将论证:任何对 PCN 推断与学习动态的严肃理论,都必须考虑神经网络丰富的架构结构。

3.7.2 局限性

如上所述,本理论的一个重要局限在于它仅在二阶近似下成立(公式 3.4)。事实上,下一章我们将证明,PC 不仅利用了损失景观的曲率信息,还利用了任意高阶的信息。该理论的另一个弱点是:尽管适用于任意能量函数,但它未考虑网络的结构或架构——而下一章将表明这一点至关重要。此外,尽管本工作突显了 PC 推断机制的潜在优势,但其计算成本仍然是一个主要限制,使其比 BP(至少在标准 GPU 上)高出数个数量级。我们的结果通过揭示 Fisher 矩阵的隐式计算与求逆过程,为这一高昂的推断成本提供了合理解释。在这方面,我们注意到已有研究提出了摊销式(amortised)PC 方案 [155],未来工作可进一步探究是否能在采用摊销策略的同时保留迭代推断所带来的优势。

原文链接: https://arxiv.org/pdf/2510.23323

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿姨这身职业装把正式感和时尚感完美拿捏了

阿姨这身职业装把正式感和时尚感完美拿捏了

牛弹琴123456
2026-01-26 11:16:56
人社部:三项社保基金累计结余10.2万亿元

人社部:三项社保基金累计结余10.2万亿元

每日经济新闻
2026-01-27 10:47:39
比亚迪“大唐”无伪装实车曝光,D级旗舰SUV唐9系

比亚迪“大唐”无伪装实车曝光,D级旗舰SUV唐9系

IT之家
2026-01-27 11:45:12
何庆魁:我一个人支撑本山传媒好几年!网友:黑土,有人喊你打钱

何庆魁:我一个人支撑本山传媒好几年!网友:黑土,有人喊你打钱

手工制作阿歼
2026-01-28 03:17:23
邵佳一霸气!3位主帅不敢重用之人,被他激活,3场为国足轰进3球

邵佳一霸气!3位主帅不敢重用之人,被他激活,3场为国足轰进3球

何老师呀
2026-01-27 11:51:06
牢A含金量提升!澳洲中国留学生堕胎率超30%,16年前报道数据扎心

牢A含金量提升!澳洲中国留学生堕胎率超30%,16年前报道数据扎心

火山诗话
2026-01-25 06:48:02
让女人“生理性上瘾”的男人,从来不是有钱的,而是这2种!

让女人“生理性上瘾”的男人,从来不是有钱的,而是这2种!

加油丁小文
2026-01-28 07:21:37
央视重磅提醒,奉劝所有中国人提前做好心理准备

央视重磅提醒,奉劝所有中国人提前做好心理准备

老特有话说
2026-01-28 00:37:23
C罗滑稽行为引发球迷热议:一事无成,早该退役了

C罗滑稽行为引发球迷热议:一事无成,早该退役了

本泽体育
2026-01-27 17:26:35
全红婵灰色西装亮相,又甜又飒,颜值气质双开挂

全红婵灰色西装亮相,又甜又飒,颜值气质双开挂

仙味少女心
2026-01-27 16:03:07
椰树为徐冬冬婚礼推出定制饮料包装“从单身喝到结婚”,集团回应

椰树为徐冬冬婚礼推出定制饮料包装“从单身喝到结婚”,集团回应

中国品牌
2026-01-27 19:24:12
奥沙利文复出 公布生涯最终目标 超越亨得利 史上最强八贯王 中国

奥沙利文复出 公布生涯最终目标 超越亨得利 史上最强八贯王 中国

越岭寻踪
2026-01-28 07:51:29
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
曼联官方:COO科莱特-罗奇被任命为新球场开发首席执行官

曼联官方:COO科莱特-罗奇被任命为新球场开发首席执行官

懂球帝
2026-01-28 08:26:10
知情人士:俄乌和平协议签署已成乌获美安全保障先决条件

知情人士:俄乌和平协议签署已成乌获美安全保障先决条件

界面新闻
2026-01-28 07:13:51
出什么事了?加仓547%!北向资金锁定芯片唯一低估大真龙

出什么事了?加仓547%!北向资金锁定芯片唯一低估大真龙

财报翻译官
2026-01-28 06:53:32
李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

史海孤雁
2025-12-25 16:48:16
Clawdbot改名Moltbot,它凭什么红遍硅谷

Clawdbot改名Moltbot,它凭什么红遍硅谷

虎嗅APP
2026-01-28 06:00:07
离春节不到一个月,4位名人翻车 卖惨欠税吃相难看,都不值得原谅

离春节不到一个月,4位名人翻车 卖惨欠税吃相难看,都不值得原谅

科学发掘
2026-01-28 07:20:35
13年了!英媒:车王舒马赫不再长期卧床 目前能借助轮椅活动

13年了!英媒:车王舒马赫不再长期卧床 目前能借助轮椅活动

新英体育
2026-01-27 10:33:55
2026-01-28 08:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章数 18关注度
往期回顾 全部

科技要闻

Anthropic将融资200亿美元、估值3500亿美元

头条要闻

牛弹琴:印欧迎来大喜事 冯德莱恩被痛骂背叛欧洲人民

头条要闻

牛弹琴:印欧迎来大喜事 冯德莱恩被痛骂背叛欧洲人民

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

涨价!新风口,在路上了!

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

游戏
本地
教育
艺术
公开课

魔兽世界:时光服周二临时更新,玩家插件失效,这到底是什么情况

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

教育要闻

从华东师大,停招24个本科专业,看透未来 10 年就业风口!

艺术要闻

你也能认出14字狂草?一帖解决困惑!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版