Bayesian Deep Learning and a Probabilistic Perspective of Generalization
贝叶斯深度学习与泛化的概率视角
https://proceedings.neurips.cc/paper/2020/file/322f62469c5e3c7dc3e58f5a4d1ea399-Paper.pdf
![]()
摘要:
贝叶斯方法的关键区别性特征在于边缘化(marginalization),而非采用权重的单一设定。贝叶斯边缘化尤其可提升现代深度神经网络的准确性和校准能力——这类网络通常因数据不足而欠定(underspecified),从而能表征许多同样合理但彼此不同的解。我们表明,深度集成(deep ensembles)为近似实现贝叶斯边缘化提供了一种有效机制;并进一步提出一种相关方法:在吸引域(basins of attraction)内部进行边缘化,从而进一步改善预测分布,且不带来显著计算开销。我们还探究了由神经网络权重上的模糊先验分布所隐含的函数空间先验(prior over functions),从概率视角解释此类模型的泛化特性。基于这一视角,我们对若干曾被视为神秘且与神经网络泛化特性“迥异”的现象(例如,网络能拟合带随机标签的图像)给出解释,并表明这些现象同样可在高斯过程中复现。我们还证明,贝叶斯模型平均(Bayesian model averaging)可缓解“双重下降”(double descent)现象,使模型性能随灵活性提升而呈现单调改进。
1 引言
想象一下拟合图1中的航空公司乘客数据。你会选择哪个模型:(1) f₁(x) = w₀ + w₁x,(2) f₂(x) = Σⱼ₌₀³ wⱼxʲ,或 (3) f₃(x) = Σⱼ₌₀¹⁰⁴ wⱼxʲ?
![]()
如此提问,大多数听众会压倒性地倾向于选择(1)和(2),因为担心过拟合。但在这些选项中,选择(3)最诚实地代表了我们的信念。的确,真实的数据生成机制很可能超出了以上任何一种选择的范畴,但存在某种系数{wⱼ}的设定(在选择(3)中),能比选择(1)和(2)——它们是选择(3)的特例——更好地描述现实。此外,我们关于观测数据生成过程的信念,通常非常复杂,理应独立于我们观察到的数据点数量。
而在现代实践中,我们隐式地偏向选择(3):我们经常使用拥有数百万参数的神经网络去拟合仅有数千个数据点的数据集。此外,诸如高斯过程之类的非参数方法通常涉及无限多个参数,从而实现了通用近似的能力[40],但在许多情况下却能提供非常简单的预测分布。事实上,参数计数对于理解泛化行为而言是一个糟糕的代理指标。
从概率论视角出发,我们认为泛化很大程度上取决于模型的两个属性:支持度(support)和归纳偏置(inductive biases)。考虑图2(a),其中横轴概念化了所有可能的数据集,纵轴则表示模型的贝叶斯证据。
模型的证据,或边缘似然(marginal likelihood),p(D|M) = ∫ p(D|M, w)p(w)dw,是指如果我们从参数先验p(w)所诱导的函数空间先验p(f(x))中随机抽样,生成一个数据集D的概率。我们将“支持度”定义为满足p(D|M) > 0的数据集范围。我们将“归纳偏置”定义为不同数据集的相对先验概率——即由p(D|M)给出的“支持度分布”。MacKay [26]曾使用与图2(a)类似的示意图来理解奥卡姆剃刀效应在模型选择中的应用;我们认为它同样可用于推理模型构建和泛化问题。
从这一视角出发,我们希望模型的支持度足够大,以便能够表征我们相信可能存在的任何假设,即使该假设可能性很低。我们甚至希望模型能够表征纯粹的噪声,例如有噪的CIFAR [51],只要我们诚实地相信数据完全由噪声构成的概率虽不为零但可能极小。至关重要的是,我们还需要归纳偏置来仔细表征我们相信对特定问题类别而言更有可能成立的那些假设。如果我们正在建模图像,那么我们的模型应具备统计特性,例如卷积结构,这是对图像的良好描述。
图2(a)展示了三个模型。我们可以将蓝色曲线想象为一个简单的线性函数f(x) = w₀ + w₁x,结合参数上的分布p(w₀, w₁),例如N(0, I),这会诱导出函数空间上的分布p(f(x))。从我们的先验p(w₀, w₁)中采样的参数会产生对应于具有不同斜率和截距的直线的函数f(x)。因此,该模型具有截断的支持度:它甚至无法表征一个二次函数。但由于边缘似然必须在数据集D上归一化,该模型将其大部分质量分配给了它确实支持的数据集。红色曲线可能代表一个大型全连接MLP。该模型高度灵活,但其支持度在数据集上分布得过于均匀,以至于对许多图像数据集而言并不特别有说服力。绿色曲线可能代表一个卷积神经网络,它为图像识别任务提供了令人信服的支持度和归纳偏置规范:该模型高度灵活,但针对结构化问题提供了特别好的支持。
![]()
当支持度很大时,我们撒下了一张足够宽的网,使得后验分布可以如图2(b)所示围绕给定问题的真实解收缩,而现实中我们常认为真实解是非常复杂的。另一方面,如果简单模型的假设空间不包含真实解,如图2(c)所示,则其后验分布会收缩到一个错误的解上。此外,在图2(d)中,模型具有广泛的支持度,但由于其支持度过分均匀分布,它不会收缩到一个好的解上。
回到开头的例子,我们可以用追求大支持度的理由来证明高阶多项式的选择。但我们仍需谨慎选择系数上的先验分布,以诱导出具有合理归纳偏置的函数空间分布。事实上,这种贝叶斯意义上的泛化并非基于单一数值,而是一个二维概念。从这个概率视角来看,切勿将模型的灵活性(flexibility)与模型类别的复杂度(complexity)混为一谈。事实上,采用RBF核的高斯过程具有很大的支持度,因此很灵活,但其归纳偏置倾向于非常简单的解。我们还看到,在此泛化视角下,参数计数毫无意义:重要的是参数空间上的分布如何与模型的函数形式相结合,从而诱导出解空间上的分布。
在本文中,我们从泛化的概率视角出发,探讨贝叶斯深度学习。贝叶斯方法的关键区别性特征在于边缘化(marginalization)而非优化,即我们通过所有参数设置及其后验概率加权来表征解,而不是将所有赌注押在一个单一的参数设置上。神经网络通常因数据不足而欠定,并可表征许多不同的高性能模型,这些模型对应于不同的参数设置——这正是边缘化将在准确性和校准方面产生最大差异之处。此外,我们澄清了近期的深度集成方法[22]并非贝叶斯推断的竞争性方案,而可视为一种引人入胜的贝叶斯边缘化机制。事实上,我们实证表明,深度集成能比标准贝叶斯方法提供更好的贝叶斯预测分布近似。我们提出MultiSWAG,这是一种受深度集成启发的方法,它在吸引域内进行边缘化——在训练时间相似的情况下实现性能提升。
随后,我们研究了由神经网络权重先验所诱导的函数空间先验的性质,表明它们具有合理的归纳偏置,并将这些结果与温度调整(tempering)联系起来。我们还表明,Zhang等人[51]最近提出的神秘泛化特性,可以通过对函数空间先验分布的推理来理解,且并非神经网络所独有。事实上,我们表明高斯过程也能完美拟合带随机标签的图像,但在无噪声问题上仍能泛化。这些结果是大支持度与常见问题设定下合理归纳偏置共同作用的结果。我们进一步表明,虽然贝叶斯神经网络可以拟合含噪数据集,但边缘似然对无噪声数据集有更好的支持,这与图2一致。我们还额外表明,MultiSWAG中的多模态边缘化缓解了双重下降现象,从而在模型灵活性增加时实现单调的性能提升,这与我们的泛化视角一致。MultiSWAG还在准确率和负对数似然(NLL)上显著优于SGD训练和单峰边缘化方法。
代码位于:https://github.com/izmailovpavel/understandingbdl
2 相关工作
贝叶斯神经网络领域具有代表性的早期研究包括 MacKay [26]、MacKay [27] 与 Neal [35]。这些工作普遍主张:贝叶斯方法所采用的模型类应尽可能灵活,这与 Box 与 Tiao [5] 的观点一致。相应地,Neal [35] 探索了大型贝叶斯神经网络的极限情形,证明当隐藏单元数量趋于无穷大时,此类模型会收敛为具有特定核函数的高斯过程。该结论与近期关于神经正切核(neural tangent kernel)的研究 [例如,16] 相契合。
边缘似然常被用于贝叶斯假设检验、模型比较以及超参数调优,其中贝叶斯因子(Bayes factors)被用于在不同模型之间进行选择 [18]。MacKay [28, 第28章] 使用了与本文图2(a)类似的示意图,说明边缘似然具有奥卡姆剃刀特性——即使各模型先验概率相等,边缘似然仍倾向于选择与给定数据集一致的最简模型。Rasmussen 与 Ghahramani [41] 则探讨了:只要大型灵活模型在函数空间中对应某种合理的分布,边缘似然仍可对其给予支持。
近年来,针对现代深度学习的贝叶斯方法研究兴趣显著增长,所面临的新挑战与架构设计远超早期研究的范畴。近期工作主要聚焦于以下方向:可扩展推断方法 [例如,4, 9, 19, 42, 20, 29];受函数空间启发的先验构建 [例如,50, 25, 45, 13];以及在参数空间中构建平坦的无信息先验(flat objective priors),直接利用神经网络函数形式本身的归纳偏置 [例如,34]。Wilson [48] 提供了一篇动机性笔记,对贝叶斯深度学习进行了阐释。
总体而言,PAC-Bayes 理论为推导显式的非渐近泛化界(non-asymptotic generalization bounds)提供了有力框架 [31, 23, 7, 36, 37, 30, 17]。此类泛化界可通过减少参数数量或采用极紧凑的先验得以改进——然而,此类紧凑性未必对应最优泛化性能。从我们的视角出发,模型的灵活性以及具有大支持度的先验(而非紧凑性)才是理想特性。此外,本文工作还表明:在深度学习中,跨多个吸引域的边缘化(multi-basin marginalization)对泛化至关重要;而 PAC-Bayes 界本质上并不因后验分布是否多峰而改变。
我们的研究重点与 PAC-Bayes 理论互为补充,且主要是规范性(prescriptive)的:旨在为模型构建、推断方法、泛化机制以及神经网络先验提供直观理解;同时建立贝叶斯模型平均与深度集成之间新的联系;阐明贝叶斯模型平均在现代深度神经网络语境下的特定优势;提出对贝叶斯深度学习中温度调节(tempering)的新见解;提供一种有别于简单蒙特卡洛采样的边缘化视角;并提出深度学习中贝叶斯边缘化的新方法。
在其他相关工作中,Pearce 等人 [39] 提出对深度集成的一种改进,并论证其可实现近似的贝叶斯推断;Gustafsson 等人 [12] 简要提及,深度集成可被视为从某种近似后验分布中抽取的样本。Fort 等人 [8] 则考察了单次 SGD 运行中不同模型之间、以及独立多次 SGD 运行所得模型之间的预测多样性,并建议对 SGD 迭代点的平均值进行集成。
3 贝叶斯边缘化
我们通常希望计算的预测分布为:
![]()
输出为 y(例如,回归值、类别标签等),由输入 x(例如,空间位置、图像等)索引;神经网络 f(x; w) 的权重(或参数)为 w,D 代表数据。公式 (1) 表示一个贝叶斯模型平均(BMA)。我们并非将所有赌注押在一个单一的参数设定 w 上,而是希望使用所有可能的参数设定,并根据其后验概率进行加权。这一过程被称为对参数 w 的边缘化,因为所关注的预测分布不再以 w 为条件。这并非一个有争议的方程,而仅仅是概率的求和与乘积法则。
3.1 超越蒙特卡洛方法
当公式 (1) 中的积分无法解析计算时,几乎所有用于估算该积分的方法都涉及一种简单的蒙特卡洛近似:p(y|x, D) ≈ (1/J) Σⱼ₌₁ᴶ p(y|x, wⱼ),其中 wⱼ ~ p(w|D)。在实践中,从后验分布 p(w|D) 中抽取的样本本身也是近似的,通常通过 MCMC 或确定性方法获得。确定性方法会用另一种更方便采样的密度 q(w|D, θ) 来近似 p(w|D),这种密度通常被选为高斯分布。参数 θ 的选择旨在使 q 在某种意义上尽可能接近 p;例如,变分近似 [例如,2] 已成为一种流行的确定性方法,它通过寻找 argminθ Kℒ(q||p) 来实现。其他标准的确定性近似方法包括拉普拉斯近似 [例如,27]、期望传播 [32] 和 INLA [43]。
从估算公式 (1) 中预测分布的角度来看,我们可以将简单蒙特卡洛方法视为用一组点质量来近似后验分布,这些点的质量位置由另一个近似后验 q 抽取的样本给出,即使 q 本身是一个连续分布。也就是说,p(w|D) ≈ Σⱼ₌₁ᴶ δ(w = wⱼ),其中 wⱼ ~ q(w|D)。
最终目标是准确地计算公式 (1) 中的预测分布,而非寻求一个总体上精确的后验分布表示。特别是,我们必须谨慎地在那些对 BMA 积分贡献最大的区域中表征后验分布。在第 3.2 节和第 4 节中,我们将探讨各种方法如何近似预测分布。
3.2 深度集成即是贝叶斯模型平均(BMA)
深度集成(Deep ensembles)[22] 正迅速成为构建高精度、良好校准预测分布的黄金标准。近期研究 [例如,38, 1] 表明,就不确定性表征而言,深度集成似乎优于某些特定的贝叶斯神经网络方法——这导致了一种误解,即深度集成与贝叶斯方法是相互竞争的两种路径。事实上,这些方法常被明确称为“非贝叶斯的”[例如,22, 38, 47]。
与之相反,我们认为:深度集成实际上是一种极具吸引力的贝叶斯模型平均(BMA)实现方式,完全符合第 3.1 节所述思路。
此外,由于深度集成能够表征多个吸引域(multiple basins of attraction),它对 BMA 的近似效果甚至优于 Ovadia 等人 [38] 研究中所采用的贝叶斯方法。正如第 3.1 节所述,函数层面的多样性(functional diversity)对准确近似 BMA 积分至关重要。我们将在第 4 节中深入探讨这些问题。
4 边缘化的实证研究
我们已表明,深度集成可被理解为一种近似的贝叶斯边缘化方法:它通过表征后验分布中的多个吸引域(multiple basins of attraction),从而优选函数层面的多样性(functional diversity)。而大多数贝叶斯深度学习方法则专注于在单一吸引域内精确近似后验分布。为此,我们提出一种新方法——MultiSWAG:它将多个独立训练的 SWAG 近似 [29] 相结合,构建一种高斯混合模型(mixture of Gaussians)形式的后验近似,其中每个高斯分布的中心位于不同的吸引域。值得注意的是,相比标准深度集成,MultiSWAG 无需额外的训练时间。图 8(附录中)直观地展示了深度集成、标准单峰变分方法与 MultiSWAG 三者之间的概念差异。
在图 3 中,我们在一个可近乎精确计算预测分布的设定下,评估了单峰与多峰方法的表现。为近似真实结果,我们采用来自 hamiltorch 工具包 [6] 的 10 条哈密顿蒙特卡洛(HMC)链。数据生成、模型训练细节以及 HMC 采样器的收敛性分析详见附录 D.1。结果表明:与单峰变分方法相比,深度集成所得预测分布在定性上更接近真实分布——在数据簇之间的区域,深度集成对认知不确定性(epistemic uncertainty)的刻画与穷举式 HMC 相似;而变分方法在这些区域却表现出极端的过度自信。此外,我们观察到:随着样本数量增加,深度集成与真实预测分布之间的Wasserstein 距离迅速减小;而变分方法的该距离则几乎不随样本数变化。因此,深度集成对式 (1) 中贝叶斯模型平均的近似效果优于传统的单峰变分方法(后者常被标记为“贝叶斯替代方案”)。若想在贝叶斯预测分布近似上与深度集成竞争,变分方法必须实现对多个吸引域的边缘化。
![]()
接下来,我们在 CIFAR-10 数据集 [21] 上评估 MultiSWAG 在分布偏移(distribution shift)下的表现,复现 Ovadia 等人 [38] 的实验设置:我们采用 Hendrycks 与 Dietterich [14] 引入的 16 种数据扰动,每种扰动包含 5 个不同严重程度等级。针对每种扰动,我们评估深度集成与 MultiSWAG 在不同训练预算下的性能。对于深度集成,我们以集成中独立训练模型的数量为变量绘制性能曲线;对于 MultiSWAG,我们以所构建的独立 SWAG 近似数量为变量(每个 SWAG 近似再采样 20 个模型,共同构成最终集成)绘制性能曲线。
尽管 MultiSWAG 的训练时间与深度集成相同,但在测试阶段它开销更大——因其对应的集成模型数量更多。为应对测试时间受限的场景,我们还提出了 MultiSWA:该方法对独立训练所得的 SWA 解 [15] 进行集成。SWA 解即对应 SWAG 高斯近似的均值;Izmailov 等人 [15] 认为,SWA 解可用单一模型近似 SWAG 所代表的局部集成。
图 4 展示了在不同强度高斯模糊扰动(从左至右强度递增)的 CIFAR-10 上,Preactivation ResNet-20 的负对数似然(NLL)随独立训练模型数量的变化情况。结果表明:在高度扰动数据上,MultiSWAG 显著优于深度集成;在扰动较轻时,当仅有少量独立训练模型可用时,MultiSWAG 表现尤为出色。我们注意到,MultiSWA 同样优于深度集成,且其训练与测试计算开销与深度集成完全相同。附录中图 9–12 提供了其他扰动类型的结果,展现出类似趋势;附录还包含对 MultiSWAG 的全面评估。
![]()
我们的泛化视角与贝叶斯边缘化紧密相连。要充分实现深度学习中边缘化的优势,我们需通过多峰后验近似(如 MultiSWAG)尽可能多地纳入各种假设。第 7 节我们将再次回到 MultiSWAG,展示其如何缓解双重下降现象,并在准确率与 NLL 两方面,相较于 SGD 及单峰边缘化方法,带来显著的泛化性能提升。
5 神经网络先验
参数上的先验分布 p(w) 与模型 f(x; w) 的函数形式相结合,共同诱导出一个函数空间上的分布 p(f(x; w))。正是这个函数空间上的分布决定了模型的泛化特性;单独来看,参数先验本身并无意义。神经网络内嵌了结构性属性(如平移等变性、层次化表征和稀疏性),这些属性提供了良好的归纳偏置。根据图2的意义,由于神经网络的高度灵活性,其先验具有很大的支持度(support),但其归纳偏置会将大部分概率质量分配给神经网络常被应用的问题场景所对应的数据集。在本节中,我们研究由该先验诱导出的函数空间分布的性质。我们将直接延续第6节关于先验的讨论,重点关注从泛化的概率视角分析 Zhang 等人 [51] 提出的“含噪 CIFAR”结果。这两部分内容最好结合阅读。在 [49] 中,我们讨论了温度调节(tempering)与此类结果的关联。
5.1 深度图像先验与随机网络特征
最近两项研究成果提供了有力证据:当模糊的高斯参数先验与神经网络架构结合时,会诱导出一种具有实用归纳偏置的函数空间分布。在“深度图像先验”(deep image prior)中,Ulyanov 等人 [46] 表明,未经训练的随机初始化卷积神经网络即可在图像去噪、超分辨率和修复任务上取得优异性能。这一结果证明,从神经网络的随机先验 p(f(x; w)) 中抽取的样本函数,在任何训练之前就已具备捕捉低层图像统计特性的能力。类似地,Zhang 等人 [51] 表明,用随机初始化的未经训练的卷积神经网络对 CIFAR-10 进行预处理,可将基于简单高斯核(作用于像素)的测试准确率从 54% 显著提升至 71%。加入 ℓ₂ 正则化仅能再额外提升 2% 的准确率。这些结果再次表明:宽泛的高斯参数先验能在网络上诱导出合理的先验分布,而减小参数空间先验方差所带来的额外收益很小——这正对应于 ℓ₂ 正则化的作用。
5.2 先验类别相关性
在图5中,我们研究了 LeNet-5 卷积网络 [24] 在不同 MNIST 类别对象上的输出先验相关性。我们从权重先验 p(w) = N(0, α²I) 中采样网络,并计算所有图像对对应的第一个类别的 logit 值,然后计算这些 logit 值之间的相关性。对于所有 α 水平,属于同一类别的对象之间的相关性始终高于不同类别的对象之间的相关性,这表明该网络诱导了一种合理的先验相似性度量。此外,我们观察到,随着 α 的增大,先验相关性略有下降,这表明限制权重范数具有一定微弱效用,这与第 5.1 节的结论一致。同样,在面板 (d) 中,我们看到当 α 在 [0, 0.5] 区间内增加时,负对数似然(NLL)显著下降,之后略微上升,但随后保持相对稳定。
![]()
6 重新思考泛化
Zhang 等人 [51] 证明,深度神经网络具有足够的容量去拟合流行图像分类任务中被随机打乱的标签,并建议这一结果要求我们重新思考泛化理论以理解深度学习。
然而,我们认为,从概率论视角来看,这种行为并不令人费解,它并非神经网络所独有,也不能作为反对采用模糊参数先验的贝叶斯神经网络(BNNs)的证据。根本原因在于引言中提出的观点:从概率视角看,泛化至少是一个二维概念,它既与支持度(support,即灵活性)相关——支持度应尽可能大,甚至能涵盖噪声解;也与归纳偏置(inductive biases)相关——后者代表不同解的相对先验概率。
事实上,我们证明了 Zhang 等人 [51] 所描述的、曾被视为神秘且神经网络特有的现象,完全可以由高斯过程(GPs)精确复现。高斯过程是本实验的理想选择,因为它们是流行的贝叶斯非参数模型,且直接在函数空间上赋予先验分布。此外,高斯过程具有卓越的灵活性,通过诸如 RBF 核等流行协方差函数即可实现通用近似。然而,在 RBF 核高斯过程下,先验概率较高的函数却相对简单。我们在附录中进一步介绍高斯过程,Rasmussen 和 Williams [40] 提供了详尽的入门指南。
我们首先用一个简单例子说明:采用 RBF 核的高斯过程既能轻松拟合被污染的数据集,又能在未被污染的数据集上表现良好的泛化能力(见图6)。在图6(a)中,我们从函数空间上的 GP 先验 p(f(x)) 中采样函数,显示先验下“可能”的函数是平滑且行为良好的。在图6(b)中,我们看到 GP 能合理拟合来自结构化函数的数据。而在图6(c)中,GP 同样能够拟合高度污染、几乎无结构的数据;尽管这些数据不太可能是从先验中采样的,但 GP 的支持度覆盖了包括噪声在内的广泛解。
![]()
接下来,我们展示高斯过程可以复现 Zhang 等人 [51] 所描述的泛化行为(实验细节见附录)。当应用于带有随机标签的 CIFAR-10 图像时,高斯过程实现了 100% 的训练准确率和 10.4% 的测试准确率(相当于随机猜测水平)。然而,同一模型在真实标签上训练后,其训练和测试准确率分别为 72.8% 和 54.3%。因此,Zhang 等人 [51] 描述的泛化行为并非神经网络独有,可以通过分别考虑支持度和归纳偏置来解释。
事实上,尽管高斯过程支持带随机标签的 CIFAR-10 图像,但这些图像在 GP 先验下并不“可能”。在图6(d)中,我们计算了一个二分类 CIFAR-10 问题上的近似 GP 边缘似然,其中标签包含不同程度的污染。我们看到,随着数据噪声增加,近似边缘似然(以及对这些数据的先验支持度)随之下降。在图6(e)中,我们观察到贝叶斯神经网络表现出类似的趋势:随着被污染标签比例增加,近似边缘似然下降,表明贝叶斯神经网络所诱导的函数空间先验对这些含噪数据集的支持度更低。
我们在附录中提供了更多实验细节。关于 BNN 先验及其与温度调节(tempering)的关系,我们另在 [49] 中进行了进一步讨论。
Dziugaite 和 Roy [7] 以及 Smith 和 Le [44] 从互补角度探讨了 Zhang 等人 [51] 在 MNIST 数据集上的结果:Dziugaite 和 Roy [7] 为无噪二值化 MNIST 给出了非空洞的 PAC-Bayes 泛化界,但在含噪 MNIST 上无法做到;Smith 和 Le [44] 则表明逻辑回归可以在降采样的 MNIST 上拟合噪声标签,并从奥卡姆因子(Occam factor)的角度解读了该结果。
7 双重下降
双重下降(double descent)[例如,3] 描述的是:随着模型灵活性(flexibility)的提升,泛化误差先下降、后上升、再下降的现象。其第一阶段的“先降后升”被称为经典区域(classical regime):在此区域内,灵活性不断提升的模型能更好地捕捉数据结构、性能持续提高,直至开始过拟合。随后的第二阶段被称为现代插值区域(modern interpolating regime),该现象常被表述为深度学习中一种“神秘”的泛化行为。
然而,依据我们提出的泛化视角:若采用具有合理先验的贝叶斯模型平均(BMA),性能应随模型灵活性的增加而单调提升。事实上,在图1开头的例子中,原则上我们希望采用尽可能灵活的模型。我们迄今为止的结果表明:标准贝叶斯神经网络(BNN)先验可在函数空间中诱导出结构良好且实用的先验分布;因此,对于能进行合理边缘化的贝叶斯深度学习模型,我们不应观测到双重下降现象。
为验证这一假设,我们参照 Nakkiran 等人 [33] 的设置,在不同宽度的 ResNet-18 模型上评估 MultiSWAG、SWAG 与标准 SGD,并同时测量错误率与负对数似然(NLL)。详细实验设置见附录 D;结果展示于图7及附录图17中。
首先,我们观察到:使用 SGD 训练的模型确实呈现出双重下降现象,尤其在训练标签部分被污染时尤为明显(见图 7(c)、7(d) 面板)。同时我们发现,SWAG——一种单峰后验近似方法——在一定程度上缓解了双重下降的幅度。更重要的是,MultiSWAG 通过更充分的多峰贝叶斯模型平均,完全消除了双重下降:其性能随模型规模增大而单调提升,即使在标签严重污染的情况下也未出现双重下降现象。
![]()
我们注意到,在图 7(c) 中,深度集成展现出与 MultiSWAG 类似的趋势,同样缓解了双重下降,尽管其准确率略低(约低 1–2%)。这一结果与我们在第 3.2 节中的观点一致:即深度集成对贝叶斯预测分布的近似效果优于传统的单峰贝叶斯边缘化方法。
我们的结果凸显了对后验分布多个模态进行边缘化的重要性:在 20% 标签污染条件下,SWAG 仍显著表现出双重下降,而 MultiSWAG 则完全避免了该现象。在图 7(e) 中,我们进一步展示了:随着 MultiSWAG 中所边缘化的独立模态数量增加,双重下降现象逐步被消除。
这些结果还清晰表明:除负对数似然(NLL)外,MultiSWAG 在准确率上也显著优于 SGD 与 SWAG 模型——而 NLL 的提升正是贝叶斯模型平均常被忽视的一大优势。
8 讨论
我们提出了一种概率视角下的泛化观:泛化性能取决于模型的支持度(support)与归纳偏置(inductive biases)。其中,支持度应尽可能大,但归纳偏置必须针对特定问题类别进行良好校准。我们认为,贝叶斯神经网络正体现了这些特性;并且,通过概率推断的视角,我们得以解释那些以往被视为“神秘”的泛化行为。
此外,我们强调:贝叶斯边缘化对神经网络而言尤为有力;我们阐明了深度集成如何为边缘化提供一种切实可行的实现机制;并进一步提出一种新方法——将深度集成推广至在吸引域内部进行边缘化。我们证明,这种多峰贝叶斯模型平均方法(即 MultiSWAG)可完全消除双重下降现象,从而实现随模型灵活性提升而单调改善的性能表现;同时,在泛化准确率与对数似然(log likelihood)方面,也显著优于 SGD 与单峰边缘化方法。
当然,在现代深度学习中估计贝叶斯模型平均所需的积分仍面临诸多挑战,包括高维参数空间与复杂的后验地貌。然而,若将该挑战明确视为一个积分问题,而非仅仅试图获取后验样本以进行简单蒙特卡洛近似,则有望为未来进展开辟新路径。当前,贝叶斯深度学习已在实践中快速推进——新方法在几乎不增加计算开销的前提下,已能实现比标准训练更优的准确率与校准性能。
更广泛的影响
贝叶斯深度学习方法与理解的改进,对于将机器学习应用于可靠的决策制定至关重要。一个良好校准的预测分布能为决策提供显著更丰富的信息,并有助于防范在未校准推断中虽罕见却代价高昂的失误。贝叶斯深度学习还可提升样本效率,从而减少对通常昂贵且规模庞大的标注数据集的依赖——这类数据集往往被视为训练高精度神经网络的必要条件。如我们在双重下降实验中所示,贝叶斯神经网络对噪声也具有更强的鲁棒性。对深度学习泛化机制的更深入理解,亦有助于我们更可靠地预判:在实际问题中,何时部署神经网络是合理可行的。
当然,潜在的更广泛弊端亦不容忽视,包括:计算开销的增加,以及方法复杂性的提升——有时需要具备近似推断方面的专家知识,方能达到良好性能。
原文: https://proceedings.neurips.cc/paper/2020/file/322f62469c5e3c7dc3e58f5a4d1ea399-Paper.pdf
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.