网易首页 > 网易号 > 正文 申请入驻

梯度下降:距离神经网络模型中的隐式期望最大化

0
分享至

梯度下降:距离神经网络模型中的隐式期望最大化

Gradient Descent as Implicit EM in Distance-Based Neural Models

https://arxiv.org/pdf/2512.24780



摘要
使用标准目标函数训练的神经网络展现出概率推理的特征行为:软聚类、原型特化以及贝叶斯不确定性追踪。这些现象普遍存在于各种架构中——包括注意力机制、分类头以及基于能量的模型——然而现有的解释依赖于与混合模型的松散类比或事后架构解读。我们提供了一个直接的推导。对于任何具有基于距离或能量的对数求和指数(log-sum-exp)结构的目标函数,其关于每个距离的梯度恰好等于对应分量的负后验责任:∂L/∂dj = -rj。这是一个代数恒等式,而非近似。直接的结果是,在此类目标函数上的梯度下降隐式地执行了期望最大化——责任不是需要计算的辅助变量,而是要应用的梯度。无需显式的推理算法,因为推理已嵌入优化之中。这一结果将三种学习机制统一于单一框架之下:无监督混合建模(其中责任完全潜在)、注意力机制(其中责任以查询为条件)以及交叉熵分类(其中监督将责任钳制到目标)。最近在训练过的Transformer中观察到的贝叶斯结构并非涌现属性,而是目标函数几何结构的必然结果。优化与推理是同一过程。

1 引言
使用标准目标函数训练的神经网络反复展现出与概率推理相关的行为:软聚类、原型特化、不确定性追踪以及混合模型动力学。这些现象普遍存在于各种架构中——注意力机制、分类头以及基于能量的模型——然而它们的起源至今仍不清楚。它们是规模扩大后的涌现属性吗?是架构上的偶然?还是某种更根本的东西?本文认为,这些行为都不是上述原因。它们是常见目标函数几何结构的必然结果。

1.1 谜题

考虑那些在训练后的神经网络中自发出现的现象范围。Transformer中的注意力头学会专业化,各自为不同的语义角色路由信息。分类网络将表征空间划分为若干区域,这些区域的行为类似于混合成分。在含噪数据上训练的深度网络展现出类似贝叶斯推断的稳健性模式:对离群点降权,并在不同输入间追踪不确定性。这些行为在没有显式概率建模、没有混合模型架构、也没有任何类似期望最大化(EM)算法的情况下涌现出来。

标准解释令人难以满意。一种观点认为这些是规模的涌现属性——足够多的参数和数据以某种方式产生了统计结构。另一种观点将其视为架构巧合,是特定设计选择(如softmax归一化或残差连接)的产物。第三种观点提供松散的类比:注意力“类似于”软聚类;交叉熵“近似于”混合模型。这些解释均未回答更深层的问题:为何是这些特定行为出现,而非其他行为?又为何它们在如此不同的架构和任务中如此可靠地出现?

1.2 近期证据

Aggarwal等人[2025a,b]的近期工作显著深化了这一谜题。在受控实验环境——“贝叶斯风洞”(其中真实后验可解析获知)中,小型Transformer以低于1比特的精度复现了贝叶斯后验。这并非近似的贝叶斯行为,而是与解析解在逐位置上精确、可验证的一致。在相同条件下训练的容量匹配的MLP则完全失败,表明该现象依赖于注意力的归纳偏置,而非仅靠优化。

更引人注目的是Aggarwal等人在梯度动态中发现的现象:注意力权重在训练早期即趋于稳定,而值向量则持续精炼——这种双时间尺度结构与经典期望最大化中的E步和M步相呼应。值向量接收的更新由注意力加权,恰如混合模型中原型接收由责任度加权的更新。作者提供了完整的一阶分析,表明这一结构并非偶然,而是系统性的。

然而,Aggarwal等人明确将这种EM联系刻画为“结构性的而非变分的”——是一种类比,而非推导。他们观察到注意力行为类似EM,但并未声称EM是目标函数的必然结果。在他们的框架下,为何交叉熵训练会产生贝叶斯几何这一问题仍未解决。

1.3 本文贡献
本文填补了这一空白。我们证明,对于在距离或能量上具有log-sum-exp结构的目标函数,损失关于每个距离的梯度恰好等于对应成分的后验责任度。这并非近似,非相似,亦非类比。它是一个代数恒等式:


直接的结果是,在此类目标函数上的梯度下降就是期望最大化(EM),不过是连续执行,而非采用离散的交替步骤。前向传播计算非归一化的似然;归一化产生责任;反向传播则将责任加权后的更新量传递给参数。无需引入辅助的潜在变量,也无需调用任何推理算法。架构并非在近似EM——它就在实现EM,因为梯度本身就是责任。

这重新定义了优化与推理之间的关系。推理并非叠加在学习之上的独立算法层,也不是对学习到的表征进行的事后解释。在我们所分析的目标函数下,推理和优化是同一计算过程在不同抽象层次上的体现。Aggarwal等人观察到的贝叶斯结构并非偶然出现的涌现属性,而是由损失函数的几何结构所强制的。

1.4 贡献

本文的贡献刻意限定在较窄的范围,可归纳为三个层次递进的论点。


一种解释。这一恒等式表明,在基于距离的对数和指数目标函数上进行梯度下降,执行的是隐式期望最大化。E步是前向传播;M步是参数更新;责任从未被显式计算,因为它们就是梯度。EM并非被神经训练所近似——而是被神经训练所实现。

一个统一框架。根据所施加约束条件的不同,同一种机制体现在三种学习模式中。在无监督模式下,责任完全潜在,原型之间自由竞争。在条件模式——即注意力机制——下,责任基于共享的原型族,针对每个查询重新计算。在约束模式——即交叉熵分类——下,监督机制将其中一个责任钳制到目标值,而替代项之间的竞争仍然存在。这三种并非不同的现象,而是同一现象在不同边界条件下的表现。

2 几何基础

本文的主要结论——即责任作为梯度涌现——建立在一个特定的几何基础之上。本节将确立这一基础。我们首先借鉴先前工作的成果,总结将神经网络输出解读为距离或能量而非置信度的观点。接着,我们定义适用于我们分析的那一类对数和指数目标函数。最后,我们简要回顾经典期望最大化算法的结构,并非因为我们的方法需要它,而是为了建立一个参照点,以便与隐式EM进行对比。

2.1 基于距离的表示

神经网络输出的标准解释将其视为置信度或分数,指示证据支持某一假设的强度。当一个逻辑值(logit)很高时,表示网络"相信"某个类别;当一个注意力分数很高时,表示一个查询(query)与一个键(key)很"匹配"。这种解释虽然直观,但却模糊了神经网络实际计算的几何结构。


这种解释并非为了方便而强加的一种建模选择。它是仿射变换与分段线性激活函数组合而成的数学属性。线性层的权重定义了一个基;偏置定义了沿该基的偏移量;激活函数则衡量偏差。变化的并非计算本身,而是我们赋予计算的语义。在本文中,我们采用基于距离的解释,并将神经网络的输出互换地称为能量或距离。后续的结果——特别是将梯度识别为责任(responsibilities)——依赖于这种几何框架。

2.2 对数求和指数目标函数

给定为输入 x 计算的一组距离或能量 {d1, d2, ..., dK},我们考虑如下形式的目标函数:


这就是对数求和指数(LSE)目标函数。它有一个自然的解释:如果 exp(−dj) 表示组件 j 生成该输入的未归一化似然,那么 L 就是对数边际似然——即某个组件生成该输入的对数概率。最大化 L 会促使模型为每个输入放置至少一个接近的原型。最小化 -L 则会鼓励分离。


这些责任是非负的且总和为一。它们表示在组件间均匀先验的假设下,组件 j j对该输入负责的后验概率。


2.3 经典 EM 算法

期望最大化算法是拟合带有潜在分配的混合模型的经典算法。它通过两个交替的步骤进行。

在 E 步中,计算责任。给定当前参数,每个数据点根据相对似然被软分配至每个组件:


这些责任总和为一,并代表组件 j 生成该观测值的后验概率。

在 M 步中,参数被更新。每个组件的参数被调整,以更好地拟合分配给它的数据点,并由责任进行加权:


对于高斯混合模型而言,这简化为计算责任加权的均值和协方差。
其关键特性在于,每一个数据点都会影响每一个组件,但这种影响受到该组件对该数据点所承担责任大小的控制。

经典的 EM 算法是离散且交替进行的:先计算所有责任,然后更新所有参数,接着重复此过程。E 步和 M 步是具有不同计算作用的独立步骤。这种分离是算法层面的,并非本质上的。


3 主要结果:责任即梯度

我们现在阐述并推导核心结果。推导过程是基础的——仅需一次链式法则的应用——但其意义深远。我们证明,对于基于距离的对数求和指数(log-sum-exp)目标函数,关于每个距离的梯度恰好就是对应组件的负责任。这一恒等式无需任何近似,并且对任何计算距离并通过梯度下降优化 LSE 目标的模型都成立。导数计算本身是教科书级别的;本文的贡献在于认识到所得的量恰好就是后验责任,并且这使得每一个梯度步骤都变成了一个责任加权的更新。

3.1 推导


3.2 这意味着什么

该定理有一个直接的解释:责任并非必须被计算和存储的量。它们是梯度。任何计算距离、应用对数求和指数目标函数并通过梯度下降更新参数的系统,都已经在计算责任——不是作为一个中间步骤,而是作为学习信号本身。

注意,这个恒等式本身是纯粹的代数结果——它对于任何对数求和指数目标函数都成立,无论我们如何解释所涉及的各个量。然而,EM(期望最大化)的解释依赖于将 理解为距离,并将理解为后验责任。数学结构强制了梯度的形式;语义则赋予了它意义。


其结果是,在 LSE 目标函数上的梯度下降恰恰就是 EM 算法。它不是 EM 的近似。经典 EM 中离散的交替过程——计算责任,然后更新参数,再重复——坍缩为连续的、并行的优化。每一个梯度步骤都是责任加权的更新。每一个训练过的网络一直都在执行 EM 算法。

在本文中,"隐式 EM"指的是在对数求和指数目标函数上进行梯度下降时,责任加权的参数更新的出现——而非指坐标上升式 EM 或关于收敛性的保证。

3.3 条件

该结果依赖于三个结构条件。当所有三个条件都满足时,隐式EM动态是必然发生的——它们由数学原理强制决定。


当这些条件成立时,不存在额外的设计选择来启用或禁用类似 EM 的行为。这是目标函数几何结构的必然结果。任何计算距离、通过指数函数进行归一化并使用梯度进行训练的网络架构,都会展现出隐式 EM。


4 隐式推理的三种机制

同样的机制在不同的约束条件下有不同的表现形式:

4.1 无监督机制:混合学习

在最纯粹的情况下,对数求和指数目标函数在没有监督的情况下运行。模型计算从输入到 K 个组件中每一个的距离 dj(x),并通过训练来最小化:


这就是负对数边际似然——经典混合模型拟合中使用的目标函数。所有组件竞争每一个输入。没有标签约束哪个组件应该获胜。


结果是自发的特化。即使采用随机初始化,组件也会在训练过程中分化。每个原型都会漂移到输入空间中它持续承担高责任的区域,同时将其它区域让给竞争对手。聚类的出现并非因为指定了该目标,而是因为目标函数的几何结构强制进行了责任加权的更新。

这种机制与混合模型上的经典EM算法完全对应。其固定点——以及通向固定点的路径——都受相同的责任所支配。

4.2 条件机制:注意力机制



注意力权重恰好满足了责任的定义。它们是非负的,在所有键上总和为一,并代表了每个键在多大程度上“解释”了该查询。输出是值的责任加权组合:



4.3 约束机制:交叉熵分类

交叉熵分类引入了监督信息,但这并未使其脱离隐式 EM 的框架。它只是对其施加了约束。




错误类别之间的竞争保持不变。当模型分类错误时,责任质量分布在错误的答案中,每个错误答案都会接收到与其份额成正比的梯度信号。"错得最离谱"的类别——即那些具有最高的类别——受到的惩罚最强烈。这不是均匀的排斥;而是责任加权的修正。


交叉熵并不会消除 EM 动态;它只是引导这些动态。M 步仍然根据各组件所承担的责任比例对其进行更新,但监督信息会将该过程偏向一个预设的分配。这解释了为什么交叉熵尽管形式简单却如此有效:它继承了混合模型的软竞争和自动加权特性,同时将这些动态导向一个有监督的目标。这个损失函数所起的作用,比其熟悉的形式所暗示的要更多。

4.4 分类体系

这三种机制——无监督机制、条件机制和约束机制——在观测对象和潜在变量上有所不同。但它们共享一个共同的结构:对距离进行指数化,然后在候选项之间进行归一化。正是这个结构产生了责任,而责任又产生了隐式 EM。

关键因素是归一化。当输出被归一化时——无论是通过 softmax、通过对数求和指数配分函数,还是通过任何强制总和为一的约束操作——组件之间就会产生竞争。一个组件似然的增加,必然会降低其他组件的相对似然。这种竞争是分配产生的根源:每个输入被概率性地分配给各个组件,而梯度也相应地分布。

去除归一化,这个结构就会崩溃。考虑基于没有配分函数的核(如高斯核)的目标函数,例如最大相关熵:


在这里,每个组件独立运作。一个远离所有原型的点,会对所有原型产生微弱的梯度——不是因为责任被分配到了别处,而是因为没有竞争存在来进行分配。这里没有隐式的 E 步,因为不存在责任。这种目标函数增强了对异常值的鲁棒性(远离所有原型的点被有效忽略),但完全失去了分配结构。

这厘清了设计空间。指数化将距离转化为似然;归一化将似然转化为责任。两者兼备时,隐式 EM 就不可避免。仅有指数化,模型获得了鲁棒性,但放弃了推理。目标函数的选择,本质上是在决定模型应该进行分配还是应该忽略——而这种选择是在损失函数层面做出的,而非网络架构层面。

5 与先前工作的关系

本文推导出的结果并非孤立存在。它依赖于先前的工作来奠定其几何基础,并且通过它所能解释的近期实证发现而获得重要性。本节将阐述本文的贡献与三个方面工作的关联:基于距离的神经表示解释、近期关于 Transformer 中贝叶斯结构的证据,以及基于能量的学习和期望最大化方面的经典成果。

5.1 关于基于距离表示的先前工作

在先前的工作 [Oursland, 2024] 中,我们奠定了本文所依赖的几何解释。该工作表明,标准的神经网络层——仿射变换后接 ReLU 或绝对值激活函数——计算出的量表现为与学习到的原型之间的距离。输出是偏差,而非置信度;它们衡量的是输入距离由权重定义的参考结构有多远。这种解释并非强加的,而是从所涉及操作的数学原理中推导出来的。

本文以此几何基础为前提,提出了一个不同的问题:当基于距离的表示在标准目标函数下被优化时,会发生什么?我们先前的工作并未涉及学习动态。它描述了神经网络表示什么,而非它们如何学习。本文的贡献在于表明,对距离采用对数求和指数目标函数会产生责任加权的梯度,而这会引发出隐式 EM。

这两个结果是互补的,共同构成了一幅完整的图景。第一个结果指出:神经网络计算距离。第二个结果指出:用 LSE 目标函数优化距离就是在执行推理。两者互不包含。如果没有距离的解释,将梯度等同于责任只是一个形式上的趣闻。如果没有梯度恒等式,距离的解释描述的只是静态的表示,无法说明它们是如何产生的。几何基础支撑了学习动态;学习动态则证明关注几何基础是合理的。

Aggarwal 等人 [2025b] 从静态分析转向动态分析,研究了交叉熵训练下注意力机制的梯度。他们推导出值向量接收的是责任加权的更新,并且注意力分数会根据一种类似优势函数的规则进行调整。他们观察到一种双时间尺度的结构:注意力模式早期就稳定下来,而值向量则持续细化——这镜像了经典 EM 算法中的 E 步和 M 步。该分析十分透彻,并且与 EM 的平行关系是明确的。

然而,作者们谨慎地将这种联系描述为"结构性的,而非变分性的"。他们观察到注意力的行为类似于 EM,但并未断言 EM 是目标函数的必然结果。他们记录了这种相似性,但未尝试进行推导。

本文提供了这一推导。在基于距离的神经输出解释下,梯度恒等式 ∂L/∂dj = −rj 并非结构上的类比,而是一个代数事实。Aggarwal 等人观察到的类 EM 动态并非恰好出现在Transformer 中的涌现属性——它们是由损失函数的几何结构强制决定的。任何计算距离并优化对数求和指数目标函数的模型,无论其是否类似于 Transformer,都会展现出相同的动态。

这两项贡献之间的关系是观察与解释的关系。Aggarwal 等人以精确和严谨的方式发现并记录了该现象的实证证据。我们则提供了使该现象成为必然的理论机制。

5.3 其他联系

LeCun 等人 [2006] 的基于能量的学习框架提供了重要的概念性支撑。该工作将学习重新定义为最小化能量函数,其中概率通过指数化和归一化推导得出。本文分析的对数求和指数目标函数是基于能量的模型中"自由能"公式的一个特例。我们的贡献在于表明,这个自由能关于组件能量的梯度恰好就是后验责任——这个联系在该框架中隐含存在,但据我们所知,此前未被作为一个形式恒等式明确提出。

Dempster 等人 [1977] 提出了期望最大化算法,用于含隐变量的极大似然估计。他们将 E 步和 M 步定义为离散的、交替进行的操作。本文表明,对于基于距离的目标函数,这些步骤坍缩为梯度下降:前向传播隐式计算责任,反向传播则应用这些责任。这并非与经典公式相矛盾,而是揭示出它是更普遍现象的一个特例。EM 不仅仅是一个可以选择应用的算法;它是某些目标函数几何结构在基于梯度的优化下的一个属性。

Vaswani 等人 [2017] 引入了以注意力为核心机制的 Transformer 架构。最初的阐述强调注意力是一种软检索操作——查询关注键以聚合值。隐式 EM 的视角将注意力重新定义为条件混合推理,其中注意力权重作为责任,值投影作为原型参数。这种解释与最初的公式一致,但提供了架构描述所缺乏的概率语义。

混合专家模型 [Jacobs 等人, 1991] 使用显式的门控网络将输入路由到专门的子网络。门控权重换个名字就是责任。区别在于架构:在混合专家模型中,门控是一个单独的学习函数;而在标准注意力和分类中,责任是作为目标函数的梯度出现的,无需专门的门控机制。隐式 EM 揭示了混合专家模型中的显式门控并非必需——任何对数求和指数目标函数都会自动产生责任加权的路由。

6 局限性与失效模式

隐式 EM 框架并非普遍适用。它在特定条件下成立,而当这些条件不满足时,该分析也随之失效。本节将界定其边界:隐式 EM 在何种情况下不会出现,即使出现时可能发生哪些病理现象,以及哪些现象完全超出其范围。清晰地阐述局限性非但不会削弱,反而会加强本文的贡献——它区分了精确的主张与过度的延伸。

6.1 隐式EM不出现的情况


在这种设置下,责任不存在。没有一个量能在所有类别上总和为一;也没有软分配将输入在不同候选项之间进行分配。每个输出通道孤立地运作。一个点可能离所有原型同样近,或者离所有原型同样远,而梯度不会重新分配——它们仅仅反映独立的误差。

这不是架构的失败,而是缺少所需的目标函数结构。隐式 EM 源于竞争,而竞争源于归一化。具有独立输出的系统可以学习到有用的表示,但它们不执行混合推理,也不会展现出责任加权的动态。该框架的解释范围止于归一化失效之处。

6.2 尺度与坍缩

完整的高斯混合模型在似然函数中包含一个对数行列式项——这是对每个组件协方差体积的惩罚。这一项防止了坍缩:没有它,组件可以将其协方差收缩为零,在单个点上放置无限密度,从而获得无界似然。当协方差坍缩时,对数行列式会发散,从而平衡密度的增长。

大多数神经网络目标函数省略了这一项。交叉熵和注意力 softmax 在距离或分数上操作,没有显式的体积惩罚。隐式 EM 动态仍然成立——梯度仍然是责任加权的——但没有什么能阻止学习到的度量发生退化。网络可以学会将所有输入映射到邻近的点,从而坍缩距离结构并使责任变得无意义。

在实践中,坍缩通常通过隐式机制来避免:权重衰减正则化投影的尺度;层归一化约束激活值的幅度;像残差连接这样的架构选择则保留了信号的多样性。这些干预措施是有效的,但它们并非源自目标函数——它们只是恰好稳定了几何结构的启发式方法。

隐式 EM 框架阐明了为什么坍缩是一种风险。当组件根据其责任比例进行更新时,一个捕获了稍多概率质量的组件会接收到更强的梯度,进而捕获更多质量,并可能完全主导。这种正反馈是 EM 动态固有的,在经典模型中由体积项控制。神经网络移除了这种控制,并依赖其他机制来填补这一空白。该框架并未解决这个问题;它解释了问题为何存在。

6.3 监督约束

在无监督机制下,责任完全是潜在的——仅由数据决定哪些组件拥有哪些输入。监督学习改变了这一点。标签声明了哪个组件应该承担责任,覆盖了几何结构原本可能决定的结果。

这种约束强大但僵化。交叉熵训练强制正确类别的责任趋近于 1,无论输入是靠近该类别原型还是远离所有原型。一个与所有类别边界等距的输入仍然会得到一个硬标签;模型必须将其分配到某处。在错误类别之间,责任的软性、分级结构依然存在,但正确类别是被"夹住"的。

其后果之一是封闭世界的假设。Softmax 归一化保证了责任之和为 1——某个类别必须为每个输入承担全部责任。没有"以上皆非"的选项,模型无法将输入视为所有已知类别之外的异类而予以拒绝。一个分布外的输入,无论多么异常,都会被分配到距离最小的那个类别,并且模型的置信度可能任意高。

6.4 该框架无法解释的内容

隐式 EM 框架解释了一种现象:基于距离的目标函数中责任加权学习动态的出现。它并不能解释神经网络所做的所有事情。

泛化能力——即网络为何能在未见数据上表现良好——并未涉及。该框架描述了训练的动态过程,而非那些能够实现训练分布之外泛化的归纳偏置。规模法则——即模型大小、数据和性能之间可预测的关系——完全不在该分析的范围内。梯度恒等式本身并未说明性能应如何随参数或计算量扩展。

长程推理、规划以及序列决策涉及该框架未能捕获的时间结构。隐式EM描述了单个输入如何被软分配到各个组件,以及这些组件如何更新。它并未描述表征如何随时间组合、目标如何通过动作序列反向传播,或者模型如何学习搜索。

涌现能力——即随着规模扩大而突然出现的性质上的新行为——仍未得到解释。该框架没有说明为何某些能力会不连续地出现,或者为何它们需要特定的模型规模阈值。如果涌现能力源自隐式EM动态,其联系并不明显;如果它们源自其他机制,该框架则对此保持沉默。

这些并非分析的失败,而是其范围的边界。本文的贡献在于精确地识别并推导出一种机制,而非解释整个深度学习。明确主张的范围可以防止过度解读——并为解释隐式EM无法触及的现象留下补充说明的空间。

7 讨论

本节反思隐式EM框架统一了哪些内容,它对我们理解神经网络的方式有何启示,以及它为未来的工作留下了哪些待解决的问题。

7.1 统一性

该框架揭示出,高斯混合模型、注意力机制和交叉熵分类并非三种具有表面相似性的不同方法。它们是在不同约束条件下运作的同一种机制。在GMM中,责任完全是潜在的。在注意力机制中,责任以查询为条件,并为每个输入重新计算。在交叉熵中,责任受到监督信息的部分约束。其底层动态——指数化、归一化、责任加权更新——是相同的。

这暗示了我们在解读神经网络训练方式上的转变。概率常被视为原始量:我们定义分布,推导似然,然后进行优化。隐式EM的视角则反转了这一关系。距离是首要的。网络计算几何量——与所学结构的偏差——而概率仅在指数化和归一化之后才出现。几何先于概率;推理是在几何目标上进行优化的结果。

在这种观点下,损失函数并非为追求性能而任意选择的。它们是几何先验。交叉熵编码了一种假设,即输入应被完全地分配给离散类别。距离的对数和指数假设输入源于潜在原因的混合。相关熵假设异常值应被忽略。每个目标函数都会引发不同的分配几何结构和不同的梯度流模式。选择一个损失函数,就是选择一种关于数据如何与结构相关联的理论——无论这种选择是有意还是无意的。

7.2 意义

对于可解释性而言,该框架提供了一条从训练动态到语义结构的直接路径。如果责任就是梯度,那么网络所做的分配就不再是需要探测或事后分析的隐藏量。它们存在于反向传播中,在每个训练步骤都被计算。"哪个组件对这个输入负责?"这个问题在梯度本身中就有一个答案。这并不能解决可解释性的全部问题——理解一个组件为何承担责任需要进一步分析——但它将分配结构定位在一个已被计算出的量中,而非一个必须被提取出来的量。

对于目标函数设计而言,该分析将对数和指数函数重新定义为一种结构性要求,而非仅仅是数值上的便利。引入Softmax通常是为了避免溢出或产生性质良好的梯度。隐式EM的视角揭示了一个更深层的作用:对数和指数函数引发了竞争,竞争产生了责任,而责任则使学习表现得像推理。如果需要类似推理的行为,LSE结构就是必不可少的。如果不需要这种行为——如果更倾向于独立的预测或鲁棒的异常值处理——那么就应该有意识地避免使用LSE。这个选择无关数值稳定性;它关乎目标函数将产生何种类型的学习动态。

对于理论而言,该框架消解了一个长期存在的分野。优化和推理传统上是不同的:一个关注寻找最小化损失的参数,另一个关注计算潜在变量的后验。隐式EM的结果表明,在正确的目标函数下,这两者是同一过程在不同层次上的观察。当梯度就是责任时,梯度下降就是推理。这并不是声称所有优化都是推理,而是指对于一类明确界定的目标函数,其间的区别消失了。前向传播计算后验;反向传播应用后验。训练就是推理,在整个数据集上持续进行。

7.3 开放方向

仍有几个方向待探索。神经目标函数中缺乏体积控制——缺失的对数行列式——导致了目前由启发式方法管理的坍缩风险。一个原则性的方法要么从架构选择中推导出隐含的体积项,要么设计显式包含这些项的目标函数。理解归一化层何时能够替代体积控制,何时不能,这将把隐式EM框架与实际训练中的稳定性问题联系起来。

现实环境中的监督很少是干净的。标签可能带有噪声、是部分的或不确定的。约束机制的分析假设硬标签能精确地固定责任;更全面的处理应将软性或概率性监督建模为对责任结构的部分约束。这可能将半监督学习、标签平滑以及从众包标注中学习统一到隐式EM框架下。

开放集推理需要摆脱封闭世界的假设。当前的目标函数强制每个输入都被分配;现实的部署需要提供拒绝的选项。支持非分配的目标函数——一个显式的"以上皆非"组件,或者一个低于其则没有组件承担责任的门槛——将把隐式EM扩展到并非所有输入都属于已知类别的环境中。

最后,需要诊断工具。如果训练好的网络执行了隐式EM,那么这应该是可以测量的:从梯度中提取责任,追踪训练过程中的特化,检测机制何时失效或退化。这样的工具将把该框架从解释性理论转变为实用工具,使研究人员能够验证给定模型是否展现出理论预测的动态。


8 结论


其意义是直接的。在基于距离的对数求和指数目标函数上进行梯度下降,隐式地执行了期望最大化算法。责任并非作为辅助量计算得到;它们就是梯度本身。前向传播是 E 步;反向传播是 M 步。不需要显式的推理算法,因为推理已经嵌入在优化之中。

这种机制统一了以往被视为不同的现象。无监督混合学习、Transformer 中的注意力机制以及交叉熵分类,是同一底层过程的三种表现形式——它们在观测内容和潜在变量上有所不同,但受相同的动态所支配。最近在训练好的 Transformer 中观察到的贝叶斯结构并非一个涌现的谜团;它是用于训练它们的目标函数的必然结果。

优化和推理是同一过程在不同尺度上的观察。

原文链接:https://arxiv.org/pdf/2512.24780

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热水器一般开多少度最好?很多人都弄错,浪费电还减少它的寿命

热水器一般开多少度最好?很多人都弄错,浪费电还减少它的寿命

独舞独舞
2026-02-14 11:33:54
在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

解读热点事件
2026-02-04 00:05:07
过年,压岁钱除夕给还是初一给?原来大“有讲究”,你可别给错了

过年,压岁钱除夕给还是初一给?原来大“有讲究”,你可别给错了

瓜哥的动物日记
2026-02-15 23:28:11
“除夕3不摆,来年祸不兴”,这3样切记别上桌,不吉利,规矩要懂

“除夕3不摆,来年祸不兴”,这3样切记别上桌,不吉利,规矩要懂

小茉莉美食记
2026-02-12 10:30:06
这真是刁民啊!大连一女子因违停被处罚,为发泄不满驾车撞向民警

这真是刁民啊!大连一女子因违停被处罚,为发泄不满驾车撞向民警

火山詩话
2026-02-15 16:25:00
快船锋线球星:年轻时候我根本不注意恢复,现在我有了更多的经验

快船锋线球星:年轻时候我根本不注意恢复,现在我有了更多的经验

稻谷与小麦
2026-02-16 00:26:35
白崇禧三献生死计,真的毒到蒋介石只要采纳一计,历史就将改写?

白崇禧三献生死计,真的毒到蒋介石只要采纳一计,历史就将改写?

妙知
2026-02-15 19:56:50
高人预测:若不出意外,春节以后,国内将迎来5个变化,很现实

高人预测:若不出意外,春节以后,国内将迎来5个变化,很现实

白浅娱乐聊
2026-02-15 20:17:31
“伏弟魔”烧饼姐想通了:给弟弟买个110平的房,怕弟媳不让她住

“伏弟魔”烧饼姐想通了:给弟弟买个110平的房,怕弟媳不让她住

江山挥笔
2026-02-14 19:00:17
看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

夜深爱杂谈
2026-02-14 20:20:11
66岁冯小刚为拍全家福染黑发,搂养女眼神宠溺,徐帆状态似姐妹

66岁冯小刚为拍全家福染黑发,搂养女眼神宠溺,徐帆状态似姐妹

可乐谈情感
2026-02-15 01:06:01
俄罗斯做出危险决定,被曝要弃人民币拥抱美元,普京打的什么算盘

俄罗斯做出危险决定,被曝要弃人民币拥抱美元,普京打的什么算盘

解锁世界风云
2026-02-15 17:53:36
毛主席的四大秘书,都担任过什么职务?谁的地位最高?

毛主席的四大秘书,都担任过什么职务?谁的地位最高?

【历史客栈】
2026-01-14 10:00:35
女航天员刘洋,结婚8年不生孩子,首次升空前为丈夫留下2条遗言

女航天员刘洋,结婚8年不生孩子,首次升空前为丈夫留下2条遗言

明月清风阁
2026-02-05 11:50:05
湘潭钢铁爆炸大火持续12小时:画面流出,伤亡情况披露,原因曝光

湘潭钢铁爆炸大火持续12小时:画面流出,伤亡情况披露,原因曝光

博士观察
2026-02-15 11:07:28
seedance2.0太恐怖了,随手生成电影级别短片,业内人士惊呼:我们完蛋了

seedance2.0太恐怖了,随手生成电影级别短片,业内人士惊呼:我们完蛋了

风向观察
2026-02-15 22:35:48
能攻善守那是超级外援!今年海港大鱼 能做好其中一项 就很强

能攻善守那是超级外援!今年海港大鱼 能做好其中一项 就很强

80后体育大蜀黍
2026-02-15 23:22:57
王菲再登春晚翻唱小众歌曲,网友:我有预感,王菲要翻车

王菲再登春晚翻唱小众歌曲,网友:我有预感,王菲要翻车

蜜桔娱乐
2026-02-15 10:18:43
樊振东输给温瑞博太正常了,王楚钦早就把话说透了

樊振东输给温瑞博太正常了,王楚钦早就把话说透了

乒乓乐园
2026-02-16 00:03:33
黑店就是黑店!7200万卖出了塞梅尼奥,伯恩茅斯推出19岁接班人

黑店就是黑店!7200万卖出了塞梅尼奥,伯恩茅斯推出19岁接班人

里芃芃体育
2026-02-15 05:00:06
2026-02-16 02:03:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1224文章数 18关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

亲子
健康
时尚
艺术
教育

亲子要闻

从小“吃零食”和“不吃零食”的孩子,离了父母的严管,差距拉大

转头就晕的耳石症,能开车上班吗?

多巴胺失宠了?过年这样穿彩色时髦又减龄

艺术要闻

168米!广州“翠竹”摩天大楼复工?

教育要闻

成绩不上不下的孩子,多半卡在这四个盲区

无障碍浏览 进入关怀版