待发贝叶斯在线自然梯度（BONG） Bayesian Online Natural Gradient (BONG)|算法|高斯|变分|线性化|正则化|深度思考模型

分享至

贝叶斯在线自然梯度（BONG）

Bayesian Online Natural Gradient (BONG)

https://arxiv.org/pdf/2405.19681

摘要

我们提出了一种基于变分贝叶斯（Variational Bayes, VB）的序贯贝叶斯推理新方法。关键见解在于，在在线学习（online setting）中，我们不需要通过添加KL散度项来正则化到先验（即前一个时间步的后验分布）；相反，我们可以仅优化期望对数似然，并从先验预测出发执行一步自然梯度下降。我们证明，如果模型是共轭的，该方法能够恢复精确的贝叶斯推理。我们还展示了当变分分布为高斯分布或其子族（包括对角加低秩精度矩阵的情况）时，如何计算出一种高效的确定性近似方法，用于逼近VB目标函数以及我们简化后的目标函数。我们在实证上表明，该方法在非共轭设置下优于其他在线VB方法，例如神经网络的在线学习，尤其是在考虑计算成本的情况下。

1 引言

神经网络（NN）训练的贝叶斯方法旨在最小化真实后验分布与估计后验分布之间的Kullback-Leibler（KL）散度。这等价于最小化变分损失（或负ELBO）。

其中，θ 是网络参数，ψ 是近似后验分布 qψ(θ) 的变分参数，D 是训练数据集，p0(θ) 是先验。变分损失中的两项分别对应于数据拟合和对先验的正则化，后者类似于传统点估计方法（如随机梯度下降 SGD）中的正则项 r(θ) = − log p0(θ)。

一组重要的方法是通过对 L(ψ) 进行梯度下降来学习变分参数 [Blundell 等, 2015]。最近，Khan 及其同事 [Khan 等, 2018b, Khan 和 Rue, 2023, Shen 等, 2024] 提出使用自然梯度 F⁻¹ψ∇ψL(ψ)，其中 Fψ 是在 qψ 处计算的变分族的 Fisher 信息矩阵。自然梯度下降（NGD）通常比普通梯度下降更高效，因为它考虑了变分族的内在几何结构 [Amari, 1998]。Khan 和 Rue [2023] 将这种方法称为“贝叶斯学习规则”（Bayesian Learning Rule，BLR）。通过选择不同的变分分布、用广义损失替代负对数似然、以及其他近似方法，他们重现了许多标准优化方法（如 Adam），并推导出了新的优化方法。

我们研究的是在线学习中的贝叶斯神经网络优化问题，在这种设置中，数据是按序列方式观察到的，Dt = {(xk, yk)}ₖ=1ᵗ，算法维护一个近似的后验分布 qψₜ(θₜ) ≈ p(θₜ|Dt)，并在每一步进行更新。对于许多在线学习应用来说，快速更新（无论是计算速度还是统计效率方面）都至关重要 [Zhang 等, 2024]。为了允许数据流中的非平稳性（nonstationarity），我们在 θₜ 上引入时间索引，表示参数可能随时间变化，这在基于状态空间模型和扩展卡尔曼滤波的方法中是标准做法（例如见 [Särkkä 和 Svensson, 2023]）。信念状态通过前一步得到的先验 qψₜ|ₜ₋₁ 递归更新，使得变分损失变为：

对于这一在线学习问题，一个可行的做法是在每个时间步对 L(ψₜ) 应用自然梯度下降（NGD），并在处理下一个观测值之前迭代直到 ψₜ 收敛。我们的第一项贡献是提出跳过这一内层循环的方法，具体做法是：(a) 执行一次自然梯度下降步骤，且学习率为 1；(b) 省略式 (2) 中的 DKL 项，使得学习仅基于期望对数似然：

这两项改进是协同工作的：我们不再通过显式使用 DKL(qψₜ || qψₜ|t−1) 来正则化到先验，而是通过将 ψₜ|t−1 作为单步自然梯度下降的起点来隐式实现这一正则化。这看起来可能像是一种启发式方法，但在命题 4.1 中我们证明了，当 qψ 和 p(y|x, θ) 是共轭的，并且 qψ 是以 ψ 为自然参数的指数族分布时，这种方法能够产生精确的贝叶斯推理。因此，我们提出的更新可以被视为对非共轭变分情形下的贝叶斯更新的一种推广。与变分推理相关研究中的常见做法一样，我们将共轭情形的结果视为一种激励性的理论基础，确保我们的方法在某些简单设置下是精确的。第5节和附录B中报告的实验从实证角度补充了该理论，表明我们的方法在更一般的设置下也表现良好。我们将式（3）称为贝叶斯在线自然梯度（Bayesian Online Natural Gradient, BONG）。

我们的第二项贡献涉及如何计算式（1）至式（3）中的期望。对于神经网络来说，即使变分分布本身易于计算，这个期望仍然是难以处理的，因为似然的形式为 p(yₜ|xₜ, θₜ) = p(yₜ|f(xₜ, θₜ))，其中 f(xₜ, θₜ) 表示网络所计算的函数，它是 θₜ 的复杂非线性函数。许多先前的方法采用采样方式近似期望对数似然，这种方法会引入方差并增加计算时间，尤其是采样数量越多时越明显 [Blundell 等, 2015; Shen 等, 2024]。我们提出了一种确定性的、闭合形式的更新方法，适用于变分分布为高斯分布（或其子族），且似然属于指数族分布，其自然参数为 f(xₜ, θₜ)，均值参数为 h(xₜ, θₜ) 的情况（例如，在分类任务中，f 输出类别logits向量，h 输出类别概率，且 h = softmax(f)）。这种更新可以通过两种等价的方式推导出来。第一种方法是使用局部线性近似 h(xₜ, θₜ) ≈ ḣₜ(θₜ) [Immer 等, 2021a] 和似然的高斯近似 N(yₜ|ḣₜ(θₜ), Rₜ) [Ollivier, 2018; Tronarp 等, 2018]。在这些假设下，式（3）中的期望可以解析地计算。另一种方法则是采用不同的线性近似 f(xₜ, θₜ) ≈ f̄ₜ(θₜ) 和 delta 近似 qψₜ|t−1(θₜ) ≈ δμₜ|t−1(θₜ)，其中 μₜ|t−1 = Eqψₜ|t−1[θₜ] 是先验均值，从而将式（3）中的期望替换为插件预测（plugin prediction）。线性（h）-高斯近似是已知的方法，而线性（f）-delta 近似是新的方法，我们在命题4.2中证明这两种方法得出相同的更新，我们称之为线性化 BONG（BONG-LIN）。最后，我们讨论了目标函数海森矩阵的不同近似方式，这是进行自然梯度下降所必需的。

我们的 BONG 框架统一了几种现有的贝叶斯在线学习方法，并基于不同的变分族或参数化方式提供了新的算法。我们通过结合 4 种不同的更新规则、4 种不同的期望梯度和海森矩阵计算方法，以及 3 种不同的变分族（具有完整、对角和对角加低秩精度矩阵的高斯分布），定义了一个广泛的方法空间。我们系统地进行了实验，测试这些因素如何影响性能。我们在统计效率和计算效率方面都验证了我们方法的三个核心原则——自然梯度下降、对先验的隐式正则化以及线性化——的有效性。我们的实验代码可在 https://github.com/petergchang/bong/ 获取。

2 相关工作

变分推断（Variational Inference）通过在某个合适的分布族中逼近贝叶斯后验来绕过归一化项的问题 [Zellner, 1988, Jordan 等, 1999]。一个常见的选择是使用高斯分布作为变分族。对于在线学习任务，高斯变分滤波的精确更新公式由 [Lambert 等, 2021] 提出的 RVGA 方法给出。该更新是隐式的，但可以通过一种显式 RVGA 更新进行近似，我们将在本文中说明它实际上是 BONG 的一个特例。

大多数高斯变分推断的应用采用的是对角协方差定义的均场近似（mean-field approximation），其计算复杂度与模型规模呈线性关系。更具表达能力但仍保持线性复杂度的方法则是将协方差 [Tomczak 等, 2020] 或精度矩阵 [Mishkin 等, 2018, Lambert 等, 2023, Chang 等, 2023] 表示为对角矩阵与低秩矩阵之和（DLR）。在本文中，我们考虑了三种变分族：全协方差、对角协方差和 DLR 协方差。

对于神经网络和其他复杂模型，即使使用变分近似也可能难以处理，因此人们开发了一些方法用于近似最小化变分损失。Backpropagation 的贝叶斯版本（Bayes by Backprop, BBB）[Blundell 等, 2015] 通过对式（1）中的 VI 损失进行多次梯度下降迭代，学习神经网络权重上的变分分布。他们主要关注均场高斯近似，但该方法也适用于其他变分族。在本文中，我们将 BBB 适配到在线学习场景中，以与我们的方法进行比较。

贝叶斯学习规则（Bayesian Learning Rule, BLR）用自然梯度下降（NGD）替代了 BBB 中的普通梯度下降 [Khan 和 Rue, 2023]。BLR 有多种变体，例如针对均场高斯先验的 VON 和 VOGN [Khan 等, 2018b]，以及针对 DLR 高斯分布的 SLANG [Mishkin 等, 2018]。BLR 还被用来推导许多经典优化器的贝叶斯版本，包括 SGD、RMSprop 和 Adam [Khan 等, 2018a, Khan 和 Rue, 2023, Lin 等, 2024, Shen 等, 2024]。尽管 BLR 已被应用于在线学习，但我们更特别关注贝叶斯滤波，尤其是在非平稳环境下的滤波问题，在这种环境中数据必须逐个处理，每次更新都基于前一步的后验分布，并通常结合参数动力学模型。因此，我们开发了 BLR 的滤波版本并与 BONG 进行比较，其中一些在批量设置下退化为 VON、VOGN 和 SLANG，另一些则属于新提出的方法。我们还注意到，BLR 是一个成熟的理论框架，包含了许多巧妙的技术，这些尚未被我们完全整合进当前框架。

Khan 和 Rue [2023] 观察到，共轭更新等价于一次学习率为 1 的 BLR 步骤。这与我们第 4.1 节中的命题类似，区别在于 BLR 在变分损失中保留了 KL 散度项。在这种情况下，BLR 和 BONG 得出相同的结果，因为 KL 散度项在 BLR 第一次迭代时梯度为零：∇ψ=ψₜ|t−1 DKL(qψ || qψₜ|t−1) = 0。因此，BONG 可以被视为一种每观测执行一次更新步骤、学习率为 1 的 BLR 特例。我们的贡献在于认识到，仅执行一次更新步骤允许我们完全省略 KL 项，从而得到一个显著更简单的算法，并且我们在实验中发现它的性能也更好。

虽然 BLR 允许用除负对数似然（NLL）以外的损失函数代替，我们也可以用其他散度来替代 KL 散度 [Knoblauch 等, 2022]。我们的方法属于“广义变分贝叶斯”（generalized VB）框架，因为它完全去掉了散度项。我们提出的“通过单步 NGD 隐式正则化到先验”的方法，也类似于 [Bencomo 等, 2023] 提出的“隐式最大后验估计滤波器”（implicit MAP filter），后者从先验模态出发执行截断的梯度下降。主要区别在于他们是在模型参数（θₜ）上进行 GD，而我们是在变分参数（ψₜ）上进行 NGD。因此，BONG 维持了一个完整的先验和后验分布，而 IMAP 更关注优化器的选择如何替代显式的协方差跟踪。

我们在附录 D 中展示了另外两种推导 BONG 更新的方式之一：用线性近似替代式（2）中的期望 NLL，并求解所得方程。过去已有多个研究采取这一思路，得出了与我们类似的更新方式。Chérief-Abdellatif 等 [2019] 研究了流式变分贝叶斯，并提出了用线性化的期望 NLL 解决式（2）。当变分族为指数族时，他们的更新就变成了 NGD [Khan 和 Lin, 2017]，并且与 BONG 更新一致。Hoeven 等 [2018] 展示了如何将镜像下降（mirror descent）视为 Exponential Weights [Littlestone 和 Warmuth, 1994] 的一个特例，而后者与贝叶斯更新密切相关。所得到的算法与 BONG 类似，它是通过对 NLL 而不是期望 NLL 进行线性化并假设先验均值处的 delta 分布得出的。Lyu 和 Tsang [2021] 研究了一种松弛的黑盒优化问题，其目标函数形式为 arg minψ Eₓ∼qψ [f(x)]，其中 f 是目标函数。他们使用带有线性化期望损失和 KL 正则项的镜像下降公式，并证明所得更新等价于对期望损失进行自然梯度下降，形式上与我们的 BONG 更新一致。

从这些先前工作的角度来看，我们的贡献在于将 BONG 更新简洁地表达为对期望 NLL 的自然梯度下降，并以“用隐式正则化替代 KL 散度”作为动机，同时展示了这种方法如何引出一系列已知和新颖的贝叶斯滤波算法。

将扩展卡尔曼滤波（EKF）应用于神经网络中，是通过使用对网络的局部线性近似来进行贝叶斯滤波，从而导出简单且具有闭合形式的更新公式 [Singhal 和 Wu, 1989；Puskorius 和 Feldkamp, 1991]。经典的 EKF 假设观测服从高斯分布，但通过匹配均值和协方差，它已被扩展到其他指数族分布（例如用于分类任务），我们称这种方法为条件矩 EKF（Conditional Moments EKF, CM-EKF）[Ollivier, 2018；Tronarp 等, 2018]。若进一步将 CM-EKF 投影到对角协方差矩阵空间并引入 KL 散度投影，则得到变分对角 EKF（Variational Diagonal EKF, VD-EKF）[Chang 等, 2022]。

另一种方法是使用奇异值分解（SVD）将分布投影到对角加低秩精度矩阵空间，从而得到了 LO-FI 方法 [Chang 等, 2023]。我们在本文中将所有这些方法推导为 BONG-LIN 的特例。

在这一方向上的进一步发展包括 [Titsias 等, 2024] 提出的方法，该方法仅对神经网络的最后一层权重执行贝叶斯滤波；以及 WoLF 方法 [Duran-Martin 等, 2024]，它通过对对数似然进行数据依赖的加权，实现了对异常值的鲁棒性。

3 背景

4 方法

这相当于在公式（2）的变分损失上使用单位学习率的自然梯度下降（NGD），但忽略了项。在本节中，我们首先证明该方法在模型是共轭的情况下是最优的，然后描述如何将其扩展到更复杂的、具有实际意义的情形。

4.1 共轭情形

我们的方法受到以下结果的启发：当变分分布和似然属于共轭指数族时，BONG 与精确贝叶斯推断是一致的。

4.2 变分情形

在实际应用中，命题 4.1 中的共轭性假设通常不成立，因此公式（3）和（5）将只是对贝叶斯更新的近似。在本文中，我们将变分分布限制为高斯族。我们将不限制协方差形式的情况称为FC（全协方差），其定义为如下变分分布：

4.3 蒙特卡洛近似

4.4 线性化 BONG

作为BONG-MC的一种替代方法，我们提出了一种称为BONG-LIN的线性近似方法，它可以给出确定性的、闭合形式的更新。假设似然函数属于指数族，如命题 4.1 中所述，但其自然参数由某个函数预测得到，即

4.5 经验 Fisher

第 4.3 节和第 4.4 节中的方法需要显式计算损失的海森矩阵（MC-HESS）或网络的雅可比矩阵（LIN-HESS）。对于大型模型或高维观测来说，这些计算成本过高。相反，我们可以使用经验 Fisher 近似，用梯度的外积来代替海森矩阵（参见例如 [Martens, 2020]）。

4.6 更新规则

除了四种近似期望海森矩阵的方法（总结在表 1 中），我们还根据优化的目标损失类型以及执行的更新类型，考虑了 BONG 的四种变体，如下所述。请参见表 2 以获取总结。

4.7 变分族及其参数化

我们研究了五种用于后验分布的变分族：

引入中心矩参数化是为了测试在命题 4.1 中所强调的使用自然参数的重要性。
对角族可以支持大规模模型的学习，因为其计算复杂度随模型大小 P线性增长。
DLR 同样具有线性复杂度，但比对角族更具表达能力，它保留了部分在均场（对角）近似中丢失的参数相关性信息 [Lambert et al., 2023, Mishkin et al., 2018, Chang et al., 2023]。

使用自然梯度下降（NGD）方法对 BONG 目标函数关于参数 (μ,Υ,W)进行优化是具有挑战性的，因为在该参数化下，Fisher 信息矩阵无法高效求逆。
因此，我们首先推导出关于全协方差自然参数的更新公式（利用先验是 DLR 的特性来保证效率），然后使用奇异值分解（SVD）将后验精度矩阵投影回低秩形式，这延续了我们之前的 LO-FI 工作 [Chang et al., 2023]。

然而，如果我们省略 Fisher 预条件矩阵，并像 BOG 和 BBB 中那样使用普通梯度下降（GD），则可以直接对关于 (μ,Υ,W)的目标函数进行优化（参见附录 E.5）。

4.8 方法的整体空间

将表 2 中的四种算法、表 1 中的四种海森矩阵近似方法以及五种变分族进行交叉组合，可以得到总共 80 种算法。
表 3 展示了其中基于三种可处理的海森近似方法，以及三种使用自然参数的变分族所得到的 36 种算法。

所有这些算法的更新公式都在附录 E 中进行了推导。
伪代码在附录 A 中给出。

5 实验

从该图（以及附录 B 中的附加结果）我们可以得出以下结论：

线性化是有帮助的：LIN-HESS 和 LIN-EF 都优于 MC 相关变体。
自然梯度下降（NGD）是有帮助的：BONG 优于 BOG。
隐式正则化是有帮助的：BONG 优于 BLR。
LIN-HESS 优于 LIN-EF，至少在 BONG 方法中是如此。
BBB 总体表现较差
BONG 的后验预测（使用 LIN-HESS）比 BOG 稍微更校准良好（well-calibrated），而且两者都远优于 BLR 和 BBB，尤其是在小样本情况下，如图 7 所示。
插件后验预测与 Lin-MC 预测相似（见脚注 2），并且两者通常都远优于简单的 MC 预测，如图 5 所示。

在图 2 中，我们比较了使用不同变分族的 BONG 方法，并得出以下结论：

DLR-10 优于 DLR-1，而 DLR-1 与对角形式相近（除了在使用 BONG-LIN-EF 时，DLR-1 比对角形式差）。此外，我们还发现（此处未报告）秩为 5–10 时的结果通常与全协方差（FC）相当，但计算成本要低得多。
对角表示的自然参数化和中心矩参数化表现相当，尽管在使用 LIN-EF 时，中心矩参数化可能会出现数值不稳定的情况。

最后，在图 3 中，我们报告了这些实验的运行时间并得出以下结论：

一步法（BONG 和 BOG）快于迭代方法（BLR 和 BBB），这是符合预期的。
线性化方法（LIN-HESS 和 LIN-EF）快于 MC 方法（MC-EF）

6 结论、局限性与未来工作

我们的实验结果表明，BONG 的三个核心原则带来了显著优势：自然梯度下降（NGD）、对先验的隐式正则化以及线性化。在不同数据集和变分族中表现最出色的是BONG-LIN-HESS，它融合了全部三个原则。BLR-LIN-HESS的表现几乎与之相当，但运行速度要慢得多。

一些表现最佳的算法此前已有研究（尤其是 CM-EKF 和 LO-FI），但我们在这项工作中提供了一个系统性的理论框架来解释这些结果，并在此基础上提出了新的方法（包括 BLR-LIN-HESS）。

BONG 的理论动机来自命题 4.1，该命题仅适用于共轭先验的理想化设定。尽管如此，我们发现它在非共轭情形下也表现良好。另一方面，我们的实验主要基于相对较小的模型和数据集。未来一个重要的方向是测试我们的方法在更大规模上的扩展能力，特别是使用具有潜力的 DLR 表示形式。

B 附加实验结果

在本节中，我们提供了更为全面的一组实验结果。

B.1 运行时间测量

图 3 展示了图 1 和图 2 中实验所用方法的运行时间，这些实验是在 MNIST 数据集上拟合一个卷积神经网络（CNN）的结果。

图 4 展示了在全协方差（FC）和低秩对角+低秩（DLR）情况下，使用多层感知机（MLP）拟合一个合成回归数据集时各方法的运行时间。与 BONG 相比，BLR 的运行速度较慢（即使迭代次数 I=1），至少部分原因在于 BLR 必须计算一个更大矩阵的奇异值分解（SVD）（详见附录 E.5.3 和 E.5.4）。

B.2 MNIST 上 CNN 的详细结果

在本节中，我们报告了图 1 和图 2 所示实验中的更多指标。我们展示了三种对NLPD（负对数预测密度）的近似方法：插件近似（plugin）、蒙特卡洛（MC）和线性化 MC（Linearized MC）。
对于每种后验预测的近似方式，我们还基于选择最可能预测类别的结果，测量了相应的分类错误率（misclassification rate）。结果如图 5 和图 6 所示。

我们可以看到，插件近似与线性化 MC（lin-MC）的表现相似，并且通常都远优于标准的 MC 方法。

最后，在图 7 和图 8 中，我们报告了在时间步 [250, 500, 1,000, 2,000] 上的测试集预期校准误差（ECE），计算时使用了 20 个区间（bins）。

需要注意的是，在所有使用 LIN-HESS 的方法中，BONG-DLR-10方法的校准效果最好（此外它在 plugin 和 linearized-MC 的 NLPD 指标上也表现最优），相比于其他 DLR-10 方法以及其他 BONG 变体，这一优势尤为明显。

B.3.1 BONG、BLR、BBB 和 BOG 的比较

在图 9 中，我们展示了使用LIN-HESS 近似的实验结果。
当每步迭代次数为 1 次时，BONG 和 BLR 的性能几乎无法区分，BBB 和 BOG 的性能也相似，但明显更差。

当每步迭代次数增加到 10 次时，BBB 显著提升，并接近 BONG 和 BLR 的表现。然而此时，BLR 和 BBB 的运行时间大约是原来的 10 倍。（实际上，由于实现中存在常数项开销，运行时间的增加略小于 10 倍。）
需要注意的是，BONG 和 BOG 始终只使用单次迭代，因此它们的性能不会变化。

在图 10 中，我们展示了使用MC-EF 近似（100 个样本）的实验结果。其趋势与 LIN-HESS 类似：

当 I=1 时，BONG 和 BLR 表现相近，BONG 略有优势；
当 I=10 时，BBB 接近 BONG 和 BLR 的表现，而 BOG 始终处于最末位。
最后我们发现，当 I=1 时，MC-EF 的性能略逊于 LIN-HESS，但在 I=10 时两者接近。然而，在更大规模的实验中，我们通常发现即使 I=10 ，LIN-HESS 仍显著优于 MC-EF。

B.3.2 学习率敏感性

在图 11 中，我们展示了使用BLR（结合 LIN-HESS 近似）在测试集上的表现，共测试了 5 个不同的学习率：分别是。

当每步使用 1 次迭代时，最佳学习率为 α=0.5，这也是根据验证集性能所选择的值。使用该值时，BLR 的表现与 BONG 相当。对于其他学习率，BLR 的表现要差得多。

而当每步使用 10 次迭代时，有多个学习率都能达到与 BONG 相当的表现。

在图 12 中，我们展示了BBB的相应结果图。
当每步使用 1 次迭代时，所有学习率都导致较差的表现，其中许多情况下甚至出现了 NaN（非数值）。
而当每步使用 10 次迭代时，有一些学习率可以使 BBB 的表现接近（但仍无法完全达到）BONG 的水平。

最后，在图 13a 中，我们展示了使用LIN-HESS的BOG的相应结果图；在图 13b 中，我们展示了使用MC-EF的结果，其表现要差得多。

总体而言，我们得出结论：除BONG以外的所有方法对学习率都非常敏感。
在我们的实验中，我们是基于验证集上的表现来选择学习率的。但在真正的在线学习场景中，由于只有一个数据流，很难选出最优的学习率，这使得BONG具有了额外的优势。

D 镜像下降形式化

在本节中，我们将BONG更详细地推导为镜像下降（mirror descent）的形式，并利用这一视角对BONG 如何近似精确的变分贝叶斯（VB）方法给出两种不同的解释：
(1) 通过将期望的负对数似然（NLL）近似为关于对偶参数 ρ的线性函数；
或
(2) 通过用一个显式更新代替原本的隐式更新。

假设所使用的变分族是第 3 节末尾所介绍的指数族分布，其自然参数为 ψ，对偶参数为 ρ，充分统计量为 T(θ)，对数配分函数为 Φ(ψ)：

这是一个隐式更新，因为梯度是在（未知的）后验分布处计算的；
而公式（69）是一个显式更新，因为它在先验分布处计算梯度。
（在高斯情形下，这些可以与 [Lambert et al., 2021] 中提出的隐式和显式 RVGA 更新相对应。）
因此，BONG也可以被解释为对精确变分贝叶斯（VB）方法的一种近似，它用显式更新（公式 69）代替了原本的隐式更新（公式 71）。

E 推导

本节推导了我们所研究的全部 80 种算法的更新公式（包括表 3 中的算法以及 MC-HESS 和 LIN-EF 变体）。
在附录 E.6 中，我们还将 BLR 算法从我们的在线学习设定转换回 Khan 和 Rue [2023] 中使用的批量（batch）学习设定。

对于具有自然参数 ψ和对偶参数 ρ的指数族变分分布，我们可以基于以下四个量来推导出全部 16 种方法的更新公式：
（BONG、BLR、BOG、BBB 在四种海森矩阵近似下的所有组合）

原文链接：https://arxiv.org/pdf/2405.19681

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.