网易首页 > 网易号 > 正文 申请入驻

贝叶斯神经网络与深度学习的相互作用:综述

0
分享至

Interplay between Bayesian neural networks and deep learning: A survey

贝叶斯神经网络与深度学习的相互作用:综述

https://www.sciencedirect.com/science/article/pii/S0950705125014777?via%3Dihub


摘要:

尽管深度学习模型在多个领域取得了显著成功,但其“黑箱式”学习特性及缺乏可解释性,影响了其在医疗诊断、自动驾驶等安全关键型应用中的可靠性。为应对这些局限性,贝叶斯神经网络(Bayesian Neural Networks, BNNs)提供了一种颇具前景的替代方案:通过将不确定性估计引入模型预测,从而提升模型的透明度与决策能力。然而,BNN 的研究主要聚焦于高效且高保真的近似推断方法,以及在渐近设定下保证收敛性。这些目标并不适用于现代高维、多峰且非渐近的深度学习应用场景,从而削弱了其理论优势。为弥合这一差距,本文深入综述了近似贝叶斯推断如何借助深度学习优化技术,在高维空间与多峰损失景观中实现高效且高保真的推断;同时,本文调和了非渐近设定下贝叶斯一致性与泛化目标之间的关系,并探讨了 BNN 的泛化能力。此外,本综述还考察了常被忽视的 BNN 表达能力问题,着重分析权重不确定性及“中间不确定性”(in-between uncertainty)缺失对其性能的影响。本文旨在激励 BNN 研究者采用深度学习的视角,并为推动该领域进一步发展提供有价值的洞见。

关键词:贝叶斯神经网络;深度学习;贝叶斯推断;近似推断

  1. 引言深度神经网络(Deep Neural Networks, DNNs)[1]以多层隐含层为特征,已在诸多领域取得了显著成功[2–4]。然而,其“黑箱”特性及缺乏可解释性,限制了其在医疗诊断、自动驾驶等安全关键型应用中的可靠性[5]。此外,DNN 对训练数据的依赖,以及频率学派框架下模型常表现出的过度自信预测,进一步制约了其实际应用。在此背景下,贝叶斯统计提供了一种可行路径,可用于处理预测不确定性,并提升决策过程的透明性。

贝叶斯范式在不确定性估计方面的能力,建立在以下两个基本原则之上[6]:
1)概率反映对事件发生可能性的信念;
2)先验信念通过贝叶斯定理指导后验信念的更新。


其中, 和 分别表示假设与数据;(|)、()、() 和 (|) 分别代表似然、先验、证据与后验概率。利用贝叶斯定理更新信念这一做法,在数学上得到了 Cox 与 Savage 基础性工作的支持[7, 8]。

将贝叶斯范式置于深度学习的语境中加以考察,假设 涵盖模型结构、超参数与模型参数。由于模型结构与超参数通常在训练前即已确定,故参数 被视为 的具体体现。先验分布 () 反映对参数的初始信念,而后验分布 (|) 则表示在观测到数据 后对参数信念的更新结果。

由此,贝叶斯方法不再像传统深度学习那样给出参数的单一确定性估计值,而是定义了一个参数上的概率分布。似然函数 (|)(与频率学派方法中一致)用于衡量给定参数 对观测数据的解释程度;证据项 () 则通过对所有可能的参数配置进行积分,以评估模型整体优劣。此外,输出分布可通过贝叶斯模型平均(Bayesian Model Averaging, BMA;其形式将于公式 (24) 中介绍)获得,从而支持构建能够刻画预测不确定性的可靠模型。

与此同时,深度学习通常被置于最大似然估计(Maximum Likelihood Estimation, MLE)或最大后验估计(Maximum A Posteriori, MAP)的原则框架之下。MLE 的目标是通过最大化似然函数 (|) 来估计网络参数 ,其表达式为:


公式 (2) 与 (4) 分别对应于采用负对数似然(Negative Log-Likelihood, NLL)损失的深度学习,以及采用 NLL 损失加正则化的深度学习。

尽管贝叶斯范式与深度学习之间存在诸多相似之处,构建贝叶斯神经网络(BNNs)仍面临额外挑战,包括:如何选择恰当的先验分布 p ( θ )
,以及如何计算不可解析的证据项 p ( D )
。已有大量研究致力于解决这些问题,并指出:标准高斯先验通常已足够有效,而归纳偏置(inductive biases)可更多地通过模型结构本身进行引入[9]。针对证据项不可解析的问题,常采用近似推断技术,例如马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)[10]、变分推断(Variational Inference, VI)[11]以及拉普拉斯近似(Laplace Approximation, LA)[12]。

然而,近期研究表明:深度学习应用中所固有的高维参数空间、复杂的损失景观以及非渐近设定,给 BNN 带来了新的挑战,可能削弱其原本的理论优势。例如,LA 与 VI 中对高斯先验的依赖,通常以 Bernstein–von Mises 定理为其理论支撑;但在非渐近、高维情境下,该定理的前提条件可能失效[13–15]。虽然 MCMC 因其坚实的理论基础与渐近性质而备受认可,但在高维场景下面临计算不可行性。尽管随机梯度 MCMC(Stochastic Gradient MCMC, SG-MCMC)提供了一种计算上更高效的替代方案,但若采用朴素子采样策略,仍可能导致后验估计出现偏差[16]。

鉴于上述认识,尽管已有大量综述文献对 BNN 做出了重要贡献,仍有必要在深度学习的实际应用场景下对其重新评估。例如,文献[17]分析了 BNN 中的先验选择及其影响;Arbel 等人[18]开展了一项全面综述,涵盖从统计学到机器学习视角的各类 BNN 问题;Goan 与 Fookes[5]则探讨了 BNN 的演进历程,重点聚焦于 VI 与 MCMC 方法;Jospin 等人[6]则提供了关于 BNN 在深度学习中实际实现的详尽教程。在上述研究基础上,本文的主要贡献如下:

  • 提出一个面向深度学习、系统化的理论框架,用于梳理 BNN 的概念与发展,并从表征能力、泛化性能与优化方法三个维度,重新审视 BNN 与深度学习之间的共性与差异。不同于传统侧重于优化的 BNN 综述,本框架特别强调表达能力泛化能力的作用,包括探讨贝叶斯一致性与泛化目标之间的错位问题,以及由权重不确定性所导致的表达能力受限等关键议题。
  • 对深度学习与 BNN 的共性与差异进行了全面分析——这一方向在现有文献中常被忽视。重新考察这些方面至关重要:一方面,现代 BNN 的进展在很大程度上借鉴了深度学习的思想;另一方面,诸多挑战恰恰源于二者范式层面的根本差异。具体而言:
    • 优化角度看,BNN 优先追求高效且高保真的近似推断,此类任务常被建模为优化问题,并可借助深度学习优化技术求解;
    • 表征层面,权重不确定性使得表达能力分析较深度学习更为复杂,但在合理的假设与简化下,仍可沿用相似的分析方法;
    • 尽管在非渐近设定下贝叶斯一致性与泛化能力存在差异,探究 BNN 的泛化行为仍具重要价值,并可为理解深度学习泛化机制提供理论洞见。

本文结构安排如下:第 2 节介绍深度学习的理论框架,聚焦表征、泛化与优化三方面,并通过 DNN 与 BNN 在无限宽度极限下的高斯过程(Gaussian Process, GP)等价性,概述二者之间的联系。第 3–5 节在相同理论框架下引入 BNN,探讨深度学习概念如何助力可扩展的近似贝叶斯推断与 BNN 表达能力理论的构建,以及贝叶斯原理如何为理解深度学习技术与现象提供解释视角。第 6 节列出 BNN 评估中常用的数据集与指标,并呈现部分代表性实验结果。第 7 节讨论因深度学习与 BNN 之间差异与不一致性所引发的若干挑战,并提出潜在解决方案。第 8 节给出总结与展望。

为清晰起见,本文将深度学习与 BNN 的概念分别组织阐述。为突出二者关系,图 1 标注了其共享的概念及相互关联。需指出的是,该图侧重于共性呈现;而二者之间的差异——这些差异恰是 BNN 所面临诸多挑战的根源——将在第 7 节中详细讨论。


  1. 深度学习及其理论原理

2.1 深度学习的整体框架





在监督学习与无监督学习之间还存在一些中间方法,例如半监督学习[19]和自监督学习[20]。本节强调监督学习框架,因为它提供了一个包含三个关键组成部分——表征、泛化与优化——的全面理论基础[21]。

2.2 表征能力与非唯一性
神经网络(NNs)具备强大的函数逼近能力,这由通用逼近定理(Universal Approximation Theorem)[22]所刻画。甚至仅含单层隐含层的网络,只要隐含单元数量足够,即可逼近任意博雷尔可测函数(Borel measurable function)[23]。相比之下,深度神经网络(DNNs)能以更高效的方式表示复杂函数:其所需神经元数量随问题复杂度呈多项式增长,而浅层网络则需指数级增长[24–26]。当网络参数总数 超过输入样本数量时,即便是简单的两层网络也能精确拟合任意输入数据函数[27]。DNN 中的过参数化(即 )会通过参数空间的对称性——包括权重空间对称性[28]与尺度对称性[29]——导致参数解的非唯一性,即存在多个等价的参数配置实现相同功能。

2.3 归纳偏置、泛化能力与泛化界
深度学习模型旨在从有限观测中推断出适用于整个领域的普适规律,而实现该目标依赖于归纳偏置(inductive bias),用以从大量可能的泛化方式中引导模型选取特定的一种[18, 30, 31]。模型将所学规律应用于未见数据的能力,称为泛化能力(generalization ability),通常通过留出的测试集进行评估。引入归纳偏置通常涉及对数据或解空间施加的先验假设[32]。例如,卷积神经网络(CNNs)融入了两类关键的、与数据相关的归纳偏置:局部性(locality)与平移不变性(translation invariance)[33];而 正则化则在学习过程中引入归纳偏置,其隐含假设是:降低解之间的模糊性有助于更有效地搜索最优解[34]。从贝叶斯视角看,归纳偏置被编码于先验分布 p ( H ) 中[35]。

归纳偏置通常以牺牲模型灵活性为代价,换取更高的样本效率,这与偏差-方差权衡(bias–variance trade-off)[36]一致——后者是理解 DNN 泛化行为的核心概念。在经典理论中,若模型复杂度偏低(即函数类 F 的容量受限, f ∈ F,易导致欠拟合,表现为训练损失升高;反之,若复杂度过高,则易发生过拟合,造成测试损失上升,泛化性能下降。图 2(a) 中的损失曲线直观展示了这一偏差–方差权衡关系。


另一条关于泛化的研究主线致力于推导泛化界(generalization bounds),即对测试损失的理论上界进行刻画,其形式为:


其中 C ( F )
表示模型复杂度的一个度量,例如 Vapnik–Chervonenkis 维度[37]或 Rademacher 复杂度[38]。过参数化的神经网络常表现出“双重下降”(double descent)现象[39]——即当模型复杂度超过某一临界阈值后,泛化性能反而持续提升,如图 2(b) 所示。该现象常与“顿悟”(grokking)[40]及“涌现能力”(emergent abilities)[41]相关联,并被归因于记忆机制与泛化机制之间的竞争[42, 43]。此外已有研究指出,针对过参数化神经网络的传统测试损失泛化界往往过于宽松[44–46]。

一种常见且行之有效的提升泛化能力的方法是正则化(regularization),包括参数正则化() 正则化[34, 47]),以及在训练过程中引入随机性(例如 Dropout[48]与批归一化 Batch Normalization[49])。正则化通过在式 (7) 的经验风险函数中加入惩罚项,对其进行修正:


与奥卡姆剃刀原则(Occam’s razor)一致,模型压缩等稀疏化技术同样起到正则化作用,可在降低计算成本的同时提升模型质量[50, 51]。

2.4 优化与损失景观
为最小化式 (10) 中的经验损失,现代优化算法主要采用梯度下降法(Gradient Descent, GD)[1]。参数 θ 按如下公式进行迭代更新:


这种子采样方法会引入噪声,但预计在对不同子集进行评估时,该噪声会在整体上相互抵消[52]。

梯度下降法(GD)与随机梯度下降法(SGD)在采用合适学习率的情况下,可收敛至局部极小值[53]。然而,要保证收敛至全局极小值,通常需满足损失函数为凸的条件——即所有局部极小值均为全局极小值[54]。在深度神经网络中,训练过程常涉及非凸且高维的损失景观,因此无法保证获得全局最优解[55]。尽管如此,经验表明:即便存在大量次优的局部极小值,SGD 仍常常导向性能相近的解[56],这一现象凸显了深入理解 DNN 损失景观的重要性。

早期研究曾指出:在线性深度网络中,所有局部极小值均为全局极小值;但该结论仅适用于线性模型[21]。更近期的证据表明,过参数化可带来更有利的损失景观:1)更宽的网络更易训练;2)经剪枝后的模型性能与原始模型相近,表明冗余参数有助于优化过程[57]。此外,已有理论证明:激活函数的选择直接影响损失景观形态。对于某些光滑激活函数(如 sigmoid),在特定输入维度假设下,任意宽深的网络仍可能存在次优局部极小值[58];但在更强假设下(例如无限宽度网络),梯度下降法可避开此类次优区域并收敛至全局极小值[59, 60]。针对过参数化网络的实证研究进一步揭示:1)对于大型网络,绝大多数局部极小值在性能上彼此等效,测试集表现相近[56];2)在损失景观的低能量区域,Hessian 矩阵的谱主要由近零特征值构成,表明该区域较为平坦[61]。

2.5 无限宽度极限下高斯过程对 DNN 与贝叶斯范式的桥梁作用
如前所述,一旦模型复杂度越过“双重下降”阈值,泛化性能便会提升;而在无限宽度网络中,梯度下降可收敛至全局极小值。此外,近期研究还发现:单纯增大网络宽度(无需跨越特定阈值),即可持续提升泛化能力[62, 63]。事实上,在无限宽度极限下,DNN 展现出良好定义的学习特性,具体如下。





因此,无论深度如何,一个无限宽度且随机初始化的神经网络,在初始化时其输出服从高斯过程(GP)。这种高斯过程行为在采用平方损失进行精确贝叶斯训练后仍保持不变[66–69]。若隐含层参数固定,仅优化输出层参数,则在标准基于梯度的训练过程中,网络输出仍服从高斯过程[70]。当所有参数均被优化时,参数空间中的梯度下降(GD)对应于函数空间中的核梯度下降,由神经正切核(neural tangent kernels)引导[60]。这种高斯过程等价性同样适用于卷积神经网络(CNNs)和基于注意力机制的网络——当通道数或注意力头数趋于无穷大时[69, 71]。近期研究进一步将此等价性扩展至有限宽度的深度神经网络,但需对输入协方差与激活函数施加更严格的条件[72]。



  1. 借鉴深度学习经验训练贝叶斯神经网络

至此,我们已概述了式 (1) 所描述的贝叶斯范式,强调了其可解释性及量化不确定性的能力;同时回顾了深度神经网络(DNNs)在表征能力、泛化性能与优化方法方面的强大优势。上述要素共同构成了贝叶斯神经网络(BNNs)的理论基础。与 DNN 中频率学派方法将权重与偏置视为固定值不同,BNN 将这些参数建模为随机变量,并基于贝叶斯范式通过边缘化(marginalization)推断其后验分布,而非依赖随机梯度下降(SGD)等优化方法进行点估计。这一根本区别如图 3 所示。


监督式深度学习提供了一个涵盖优化、表征与泛化三大支柱的坚实理论框架。本文将基于该框架,梳理 BNN 领域的最新进展。本节主要聚焦于优化问题,而表征与泛化相关内容将留待后续章节讨论。

第 2.5 节从函数空间视角出发,利用高斯过程(GPs)对贝叶斯推断进行了分析——其中函数本身被视为未知参数,从而在特定条件下(例如无限宽度)可获得解析解。尽管我们通常对期望的函数形式具有更清晰的直觉,而非其底层参数,但由于非唯一性及复杂的函数空间几何结构等因素[74],神经网络中参数到函数的映射极为复杂。这导致参数空间后验与函数空间后验之间仅存在近似对应关系:


其中,δ(·) 是函数空间中的狄拉克δ函数,f(·; θ) 表示由参数 θ 参数化的函数,而 p(f|D) 与观测似然和先验的乘积成正比,如式 (16) 所示[17]。因此,一种直接的方法是将高斯过程(GP)先验作为 BNN 的函数空间先验,并通过最小化 BNN 后验分布与 GP 先验之间的 Kullback-Leibler(KL)散度[75,76]来优化 BNN 的后验分布。然而,已有研究表明,在无限维空间中计算 KL 散度需要近似处理[77],且 BNN 后验与高斯过程先验之间的函数空间 KL 散度可能导致目标函数定义不良[78]。

因此,现代 BNN 通常在参数空间内推断后验分布并获得预测分布——这类似于深度学习中的训练与验证阶段,原因在于在函数空间中执行这些任务面临诸多挑战。如前所述,DNN 因其高维参数空间及具有多个局部极小值(但训练损失相近)的多峰损失曲面,给传统贝叶斯推断带来了困难。这就要求超越严格遵循贝叶斯框架的更高效方法。本节将回顾标准贝叶斯技术(包括 LA、VI 和 MCMC),并讨论近期深度学习进展如何改进了这些方法。

3.1 拉普拉斯近似

将参数正则化视为先验。在式 (4) 中,我们概述了最大后验估计(MAP),并指出其与带正则化的神经网络训练高度相似。结合式 (4) 与式 (10),我们可推导出深度学习框架下的 MAP 表达式:


使用 L2 正则化等价于对参数施加高斯先验,而 L1 正则化则对应拉普拉斯先验,这可通过它们的负对数形式体现。

拉普拉斯近似。我们对 附近进行二阶泰勒展开,从而得到如下近似:




自然梯度下降有助于实现可扩展的拉普拉斯近似。计算 NLL(负对数似然)的 Hessian 矩阵通常十分困难。自然梯度下降方面的近期进展表明,Hessian 矩阵可被近似为半正定矩阵——具体而言,即 Fisher 信息矩阵(Fisher Information Matrix, FIM):


广义高斯-牛顿(GGN)矩阵是另一种半正定近似。然而,由于其在常见损失函数下与 FIM 等价[80–82],且 FIM 的对角线元素反映了期望平方梯度——这更符合深度学习框架的特性——因此本文的重点放在 FIM 上。


该方法可通过特征值校正的 Kronecker 积近似法进一步优化,该方法通过调整特征分解中的对角矩阵,使其更好地匹配精确曲率[86]。

Hessian 矩阵的稀疏谱及其低秩表示。实证研究表明,神经网络中 Hessian 矩阵的谱衰减迅速,仅有少数特征值和特征向量具有显著意义[61, 87]。这使得利用低秩近似(LRA)[88]高效估计 Hessian 成为可能,尽管 LRA 通常会高估实际数值[89]。此外,LRA 已成功应用于 KFAC 因子中,进一步提升了 Kronecker 结构的计算与存储效率[90]。

模型压缩与子网络推断。深度神经网络的过参数化特性使其能够仅借助一个紧凑的子网络实现高精度预测与泛化提升[50, 51]。类似地,整个模型的预测后验也可通过对部分权重子集进行推断而获得[91]。子网络推断仅对参数的一个子集执行贝叶斯推断,其余参数则固定为其 MAP 估计值。确定这些子参数空间的方法包括:基于 SGD 训练轨迹的方法[92]、曲线子空间方法[93],以及源自局部线性化贝叶斯模型且具有低 KL 散度的子空间方法[91]。一个典型实例是最后一层拉普拉斯近似(Last-Layer Laplace Approximation, LLLA)[94]——该方法仅对 DNN 的最后一层(即线性输出层)应用拉普拉斯近似。由于最后一层为线性结构,LLLA 可对该层采用精确的 Hessian 近似[95]。前述的 Hessian 近似方法(如对角/FIM/KFAC)及低秩近似(LRA)技术还可进一步应用于子网络推断,以提升其效率与精度[83]。

3.2 马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)
前述内容主要聚焦于后验分布的近似;然而在实践中,核心目标通常是获得准确的预测分布,而非精确重构后验本身。对一个未见数据样本(),其后验预测分布定义为:




则该链生成的样本可视为来自目标分布 π ( θ )
的(渐近)独立样本。随着马尔可夫链持续演化,基于这些样本的 MCMC 估计量展现出如下渐近性质:


外,MCMC 方法通常需设置一段“预烧期”(burn-in period),且所产生的样本之间存在相关性,因此需进行相应调整以提升估计精度。

Metropolis–Hastings(MH)算法是一种常用于贝叶斯神经网络(BNNs)的 MCMC 方法[101, 102]。该算法无需目标分布 π ( θ )
的精确概率值,而仅需一个与其成比例的函数 h ( θ ) ,这恰好契合贝叶斯后验分布的特点。如式 (3) 所示,后验分布正比于似然与先验的乘积,从而规避了不可解析的证据项。该算法包含两个步骤:

  1. 提议步骤(proposal step):生成一个新状态的候选;
  2. 校正步骤(correction step):根据接受概率决定接受或拒绝该提议:





朗之万动力学与随机梯度马尔可夫链蒙特卡洛(Stochastic Gradient Markov Chain Monte Carlo, SG-MCMC)在满足一定正则性条件的前提下[107, 108],朗之万扩散过程可由如下随机微分方程描述:


其中, B 表示布朗运动(可理解为一种广义高斯过程),该过程以 π ( θ )
为其平稳分布。将朗之万动力学嵌入马尔可夫过程之中,即可得到朗之万蒙特卡洛(Langevin Monte Carlo)方法[109]——它是哈密顿蒙特卡洛(HMC)的一种特例[110]。


该方法被称为随机梯度朗之万动力学(Stochastic Gradient Langevin Dynamics, SGLD)或SG-MCMC[52, 111],其计算效率良好,适用于大规模数据集。在特定假设下,已证明 SG-MCMC 能够收敛至目标后验分布[112],且该方法亦可扩展至 HMC 框架,形成 SG-HMC[113]。鉴于其基于梯度的本质(与 LA 类似),SG-MCMC 可通过引入局部曲率信息来提升提议效率[114]。

蒙特卡洛 Dropout。Gal 与 Ghahramani[115]证明:在每一权重层前加入 Dropout 的深度神经网络(DNNs)可近似一个深层高斯过程。这使得可以通过蒙特卡洛积分估算后验预测分布:


尽管 MCMC 因其在式 (28) 中所体现的渐近理论保证,通常被视为贝叶斯推断的标准方法,但其计算成本高昂。更高效的方法往往需牺牲这些理论优势。例如,在 SG-MCMC 中采用朴素子采样可能导致更新偏离真实后验分布[16];而蒙特卡洛 Dropout 在其后验预测分布中可能将真实模型的概率赋值为零[116]。

3.3 变分推断

证据下界(Evidence Lower Bound)。近期关于贝叶斯神经网络(BNNs)的研究主要聚焦于变分推断(Variational Inference, VI)方法,因其与反向传播兼容,类似于点估计网络[5]。该方法通过假设一个由参数 ω ω 参数化的分布族 Q Q 来近似后验分布,并优化 ω ω 以最小化该分布与真实后验之间的 KL 散度[11]:


平均场变分族(The Mean-Field Variational Family)。如前所述,分布族 Q Q 的复杂度影响优化难度。在变分推断中,通常采用平均场方法降低分布族 Q Q 的复杂度,该方法假设各参数之间相互独立,从而允许因子分解:




且仍关于参数 ω ω 可微,从而支持基于梯度的优化。另有研究提出一种替代估计器,通过将式 (37) 中的 KL 散度视为对 ω ω 的正则项,以进一步降低估计方差。

通过反向传播实现贝叶斯推断(Bayes by Backpropagation)
反向传播(Backpropagation, BP)[132]是训练深度神经网络的标准方法,包含两个步骤:1)前向传播以计算输出与损失;2)反向传播利用损失对权重的导数来更新权重。概率反向传播(Probabilistic Backpropagation, PBP)[125]将该方法进行拓展,其采用一组一维高斯分布(由均值 m i
和标准差 σ i 定义, i = 1 , … , N θ )来近似每个模型参数的边缘后验分布,并同样通过前向与反向传播过程,更新对数边缘似然及参数的后验分布。


PBP 与 BBB 在优化 ELBO 时均假设网络参数相互独立,因而面临与平均场方法相同的局限性:既缺失协方差信息,又受限于单峰分布形式。

灵活的后验近似方法。上述变分贝叶斯神经网络均通过平均场后验近似假设权重彼此独立。这种简化虽使 ELBO 优化具备计算可行性,却往往无法准确刻画真实后验分布。具体而言,固定的平均场分布族通常无法覆盖目标分布附近的某些区域,从而阻碍了高精度的近似。结果是,平均场变分推断倾向于低估后验方差、无法捕捉权重间的相关性,进而导致不确定性估计过度自信,且无法表征多峰信念。例如,Foong 等人[135]指出:对于单隐层 ReLU 贝叶斯神经网络,若采用平均场高斯近似或 Dropout 近似,则在分离良好的数据区域之间,其预测不确定性无法显著提升——而在精确推断下,此类“不确定性缺口”并不存在。

这些局限性推动了更灵活的变分近似方法的发展,旨在捕捉多峰性、重尾特性以及复杂的参数依赖关系。关键进展包括:1)标准化流(Normalizing Flows):通过对简单基分布施加一系列可逆变换,构建具有强表达能力的后验分布[136, 137];2)隐式变分推断(Implicit VI):通过一个采样过程(而非解析密度函数)隐式地定义后验分布[138–140];3)变分提升(Variational Boosting):通过贪婪迭代策略逐步构建混合分布[141];4)斯坦因变分推断(Stein VI):通过演化一组粒子来最小化其分布与真实后验之间的 KL 散度[142, 143];5)野性变分推断(Wild VI):放弃对解析可处理性的要求,允许任意随机过程(如模拟算法或深度网络)生成后验样本,并直接针对真实后验进行优化[144]。其中,野性变分推断泛化了隐式变分推断,并将变分推断与摊销式 MCMC(amortized MCMC)及核方法建立联系。

3.4 贝叶斯神经网络助力深度学习的可解释性

深度学习技术为贝叶斯神经网络(BNNs)提供了高效且可扩展的优化方法;反过来,BNNs 亦有助于提升深度学习的可解释性。

例如,神经网络权重与偏置的初始化过程,可被理解为在参数空间中选择恰当的先验分布——如第 2.5 节所述的独立高斯初始化,以及 Xavier 初始化[145]。若干研究已将现有优化器重新诠释为近似的贝叶斯算法[146–148]。例如,已有工作表明:随机梯度下降法(SGD)本质上执行了一种近似的贝叶斯推断[149]。类似地,诸如深度集成(deep ensembles)与随机权重平均高斯(Stochastic Weight Averaging Gaussian, SWAG)[92, 150–153]等集成方法——其通过平均多个不同 MAP 估计所得的输出以提升预测性能——亦已被重新表述为贝叶斯模型平均(BMA)技术[9, 154]。此外,实证研究表明:集成方法通过探索损失景观中的不同模态,增强了函数层面的多样性,从而缓解了贝叶斯方法常见的单峰性局限[155]。

  1. 贝叶斯神经网络的表达能力

与传统深度神经网络(DNNs)不同,贝叶斯神经网络(BNNs)将网络权重建模为概率分布,由此引发一个关键问题:基于 DNN 架构的 BNN 是否仍保有与 DNN 相当的表达能力?本节探讨 BNN 的表征能力(representation capacity)。

目前关于 BNN 表达能力的研究仍处于初步阶段,现有工作主要借鉴了研究深度学习表达能力的方法,例如通用逼近定理[22, 156]、算术电路[157]以及交互概念(interactive concepts)[158]。例如,Sharma 等人[159]将“噪声外包引理”(noise outsourcing lemma)[160]与通用逼近定理[156]相结合,提出了通用条件分布定理(universal conditional distribution theorem),证明:特定神经网络结构在部分权重具有不确定性的情形下,可作为采样器,以任意精度逼近任意连续的目标条件分布。Choi 与 Darwiche[161, 162]则从图神经网络视角分析 BNN 的表达能力,通过由乘法器与加法器构成的算术电路对 BNN 查询进行建模;他们证明 BNN 所诱导的函数为多项式函数(具体为多线性函数),并由此得出结论:BNN 的表达能力弱于 DNN。

由于 BNN 的优化通常依赖于近似推断,部分研究进一步聚焦于特定近似推断方法下所得 BNN 的表达能力。Ren 等人[163]通过考察平均场变分 BNN 所编码的交互概念(每个概念表征输入变量间的 AND 关系),分析其表达能力;他们指出:BNN 中的权重不确定性会削弱其编码复杂且对扰动敏感的交互概念的能力,相较 DNN 表现更弱。另有研究证明:MC-Dropout 的期望输出(即对多个启用了 Dropout 的子网络输出求期望之和)可精确等价于其无 Dropout 的对应网络[164];结合通用逼近定理可知,基于 MC-Dropout 的贝叶斯模型平均(BMA)能够以任意精度一致逼近任意连续函数。

Foong 等人[135]则通过考察均值函数与方差函数的通用逼近性质,分析了平均场变分 BNN 与 MC-Dropout BNN 的表达能力。他们指出:对于采用平均场高斯或 MC-Dropout 分布的深层 BNN,其均值函数可一致逼近任意连续函数,其方差函数可一致逼近任意非负连续函数;然而,采用相同分布的“影子 BNN”(shadow BNNs)以及深层变分 BNN 却可能缺失“中间不确定性”(in-between uncertainty)——即在两个低不确定性区域之间,模型未能合理提升不确定性,反而出现更高不确定性,导致预测分布与精确贝叶斯预测在定性上存在显著差异。

  1. 贝叶斯神经网络能否实现有效泛化?

与表达能力类似,BNN 的泛化能力也随着其在深度学习语境下的发展,成为一个新兴的研究焦点。

5.1 非渐近设定下贝叶斯一致性与泛化目标的错位

贝叶斯理论与深度学习的目标存在根本性错位:贝叶斯方法强调——随着训练数据量 N D
增大,后验分布应收敛于真实参数附近,该性质称为贝叶斯一致性(Bayesian consistency)[165–167];而深度学习则关注如何从有限数据中实现泛化(见第 2.3 节)。在参数量远小于样本量()的经典参数化模型中,当 N D → ∞
时,贝叶斯后验会收敛为以真实参数为中心的狄拉克δ分布,此时贝叶斯目标与深度学习目标趋于一致。然而,深度学习中普遍存在的严重过参数化现象,常导致经验性贝叶斯模型平均(empirical BMA)[168],从而引发模型误设(model misspecification),并违背贝叶斯原则。在非渐近设定下(即数据有限、模型高度复杂),贝叶斯一致性与泛化目标显著背离。

为弥合此间隙,研究者提出了PAC-贝叶斯泛化界(PAC-Bayes generalization bound)[75, 76, 169–171],作为泛化能力的一种度量。虽然该界未必最紧致,但将贝叶斯推断与最小化 PAC-贝叶斯界相结合,可更契合深度学习的泛化目标。

5.2 贝叶斯神经网络的泛化能力

BNN 的泛化能力已成为近期研究的关键性能指标[94, 172, 173]。然而,关于其泛化能力的基础性研究仍处于起步阶段。Lotfi 等人[174]重新审视了常被用作泛化能力代理指标的边缘似然(即贝叶斯证据),指出其实际回答的是另一问题——“训练数据由某先验模型生成的概率”,因而可能偏好泛化更差的模型。为此,他们提出了条件对数边缘似然(conditional log marginal likelihood),发现其与泛化性能呈正相关。

Izmailov 等人[152]研究了权重平均(weight averaging)技术,证实其可有效提升泛化能力。该方法不同于传统 BNN 中的模型平均,后续被拓展为 SWAG 方法,并被证明等价于 BMA[150]。此外,高保真推断方法(如 HMC)与可扩展技术(如 SG-MCMC 和深度集成)已在域内(in-domain)与域外(OOD)数据集上进行评估。结果表明:BNN 在域内泛化表现强劲,但在分布偏移(domain shift)场景下性能仍受限[175]。

5.3 从贝叶斯视角理解泛化

另一重要研究方向是从贝叶斯理论视角探究 DNN 的泛化机制。该视角认为,DNN 的泛化受函数空间上分布的双重因素调控:1)模型复杂度——由函数类的容量决定;2)归纳偏置——体现为函数空间上的先验[9]。

近期研究表明:模糊的高斯先验结合特定网络结构,可诱导出具有良好归纳偏置的函数分布[176, 177]。第 2.3 节介绍的“双重下降”现象看似与贝叶斯观点相悖——后者认为,在合适先验与 BMA 下,模型性能应随灵活性提升而单调改善。Wilson 与 Izmailov[9]将此矛盾归因于后验的多峰性,并证明:采用多峰 BMA(如深度集成)可消除双重下降现象,从而确保模型复杂度增加时性能单调提升。

  1. 贝叶斯神经网络的经验评估及文献中的代表性结果

由于在数据集与评估指标方面尚无统一共识,BNN 的评估颇具挑战性。为厘清此问题,本节将综述各类任务中常用的基准数据集与评估指标。

6.1 贝叶斯神经网络评估常用数据集

计算机视觉(Computer Vision):BNN 研究普遍采用标准图像基准数据集,例如 MNIST、CIFAR-10/100、SVHN 以及 ImageNet(含 TinyImageNet)[178]。这些数据集常被组合用于域外(OOD)测试:例如,在 CIFAR-10 上训练的模型在 SVHN 上评估,或在 MNIST 上训练的模型在 notMNIST 或 Fashion-MNIST 上测试,以检验 BNN 是否能对新颖输入赋予更高不确定性[90]。此外,图像数据集的受损或畸变版本(如文献[179]提供的 corruption 基准)亦被用于模拟协变量偏移(covariate shift),并评估数据退化程度增加时不确定性是否相应上升。在分割任务中(如 Cityscapes、医学影像),不确定性通常在像素级别进行评估(如预测熵图),但分类基准仍更为常见。

自然语言处理(NLP):NLP 中的评估通常涉及文本分类与序列建模。CLINC OOS 数据集用于检验意图识别系统对域内查询与域外(out-of-scope)查询的区分能力[180]。其他基准包括情感/主题分类、序列标注任务(如命名实体识别、词性标注),并涵盖多语言场景[181]。为模拟低资源场景,常对数据集进行子采样;而 OOD 划分(如保留特定主题或语言)则用于检验模型对未见文本是否产生更高不确定性。

回归与时间序列预测:UCI 数据集仍是主流基准[182]。小型数据集(如 Boston Housing、Energy、Yacht)用于评估预测区间与似然值,其中 NLL 衡量不确定性质量,RMSE 衡量预测精度。合成小规模数据集(如一维函数、人工生成序列)则用于不确定性可视化[183]。校准性(calibration)是核心评估目标——例如,95% 预测区间应实现约 95% 的实际覆盖率[184]。在时间序列任务中(如电力负荷、交通流量、汇率预测),BNN 常通过连续排序概率得分(Continuous Ranked Probability Score, CRPS)与预测区间覆盖率进行评估[4, 185]。尽管相比视觉任务标准化程度较低,这些基准仍聚焦于连续预测的校准性能。

6.2 贝叶斯神经网络的评估指标

除确定性模型的标准指标(如分类准确率)外,以下指标常用于评估 BNN 的预测不确定性:

负对数似然(Negative Log-Likelihood, NLL):NLL 是一种广为采用的严格评分规则(proper scoring rule),适用于概率性预测。更低的 NLL 值表明预测分布与真实分布更接近,并对过度自信的错误施加惩罚。在回归任务中,NLL 对应于真实值在预测分布下的对数概率。其局限在于对尾部概率较为敏感[186]。



较低的值表明概率预测更准确、校准性更好。布里尔分数可分解为不确定性(uncertainty)、分辨力(resolution)与可靠性(reliability)三个分量。值得注意的是,该分解中的“可靠性”项对应于校准误差(calibration error)。因此,布里尔分数将校准性与预测锐度(predictive sharpness)融合在一个数值中。其局限在于对稀有类别或事件上的错误不够敏感。

预测熵(Predictive Entropy):预测熵是衡量模型预测总不确定性的简单且广泛应用的指标。给定预测类别概率 p ( c ∣ x) ,熵定义为:


其中 c c 为类别目标变量, C C 为其对应的随机变量。高熵表示预测结果分散(不确定性高),低熵则表示预测结果集中(置信度高)。与 NLL 或布里尔分数不同,熵无需真实标签,使其在 OOD 检测任务中尤为有用——因为 OOD 输入预期会产生更高熵值[188, 189]。熵并非一种严格评分规则(proper scoring rule),但可作为诊断性指标使用:例如,一个校准良好的贝叶斯模型应在输入更模糊或远离训练数据时表现出熵值上升[188, 189]。有时,互信息(mutual information)会与熵一同报告,用以衡量模型不确定性(认知不确定性,epistemic uncertainty),其通过计算总预测不确定性与期望数据(偶然不确定性,aleatoric uncertainty)之间的差值来实现[190]。

期望校准误差(Expected Calibration Error, ECE):ECE 通过按置信度对预测进行分箱,并比较每个分箱内的平均置信度与实际准确率来衡量校准性能[191]。完美校准意味着 x% 的置信度应对应 x% 的准确率。尽管 ECE 广泛使用且易于解释,但它依赖于分箱策略的选择,且不属于严格评分规则。可靠性图(Reliability diagrams)通过绘制准确率 vs. 置信度曲线,可补充 ECE 分析。校准良好的模型通常呈现近对角线分布。ECE 及相关指标(如 SCE - 静态校准误差、自适应 ECE 等)提供了一种直接方式,用于比较不同不确定性方法在置信诚实度(confidence honesty)方面的表现。

OOD 检测指标(AUROC, AUPR):为评估模型不确定性是否能有效识别 OOD 输入,常采用区分性指标。受试者工作特征曲线下面积(Area Under the ROC Curve, AUROC)[192]衡量某一不确定性得分(如预测熵、最大 softmax 概率)在区分域内样本与 OOD 样本方面的优劣。AUPR 也常被报告,尤其在类别不平衡场景下更为重要。这些指标将 OOD 检测视为二分类任务:域内样本为正类,OOD 样本为负类,无需 OOD 数据的真实标签。

6.3 文献中的代表性经验结果

由于不同的不确定性任务和评估指标存在差异,贝叶斯方法之间的比较有时并不一致。正如文献[205]所指出,下游任务的定义至关重要,因为不同估计器专门针对不同概念的不确定性。尽管非穷尽性,表1总结了反映广泛实验设置下共识的若干重要经验发现。


  1. 贝叶斯神经网络在深度学习中面临的挑战

至此,我们已从优化、表征与泛化三个视角综述了 BNN 在深度学习语境下的最新进展。本章将进一步探讨 BNN 在这些领域所面临的核心挑战。

7.1 优化方法引发的挑战

在讨论拉普拉斯近似(LA)、马尔可夫链蒙特卡洛(MCMC)与变分推断(VI)时,我们已指出各方法固有的理论局限。例如,LA 与 VI 分别因单峰近似与平均场假设,往往导致单峰后验分布。此类限制会过度约束那些本应涵盖多个合理解(分布于不同模态)的弥散性先验。MCMC 尽管理论强大,但计算开销巨大——其需反复评估对数似然,而每次评估均涉及大量昂贵计算。此外,近期研究表明:SGD 在深度神经网络中生成的参数分布具有重尾特性[206–208],这与 BNN 中广泛采用的高斯假设相冲突。再者,尽管 MCMC 方法(尤其是 HMC)能有效探索复杂的目标分布,但其子采样策略(类比 SGD 中的批采样)往往因数据不足而难以实现高效探索,从而导致随机更新偏离真实后验[16],最终可能使 SG-MCMC 和 SG-HMC 表现欠佳。

实证研究显示,LA 的性能受近似粒度显著影响:粗粒度的 Hessian 近似或子网络近似可能导致预测分布过窄,表现为过度自信的预测[79, 83, 94]。对此现象的一种可能解释是:Hessian 近似与子网络近似改变了底层概率模型,造成模型与预测分布之间的不匹配。Immer 等人[95]的研究为该假设提供了支持——他们证明:LA 中的广义高斯–牛顿(GGN)近似实质上是对底层 BNN 的局部线性化,从而将其转化为一种广义线性化模型。类似问题在 VI 文献中亦有报道[209, 210]:平均场方法常导致过度自信的模型[211–213];而基于混合分布的方法因提供更灵活的近似分布,可在一定程度上缓解此问题[118, 123]。

应对上述优化局限的策略主要有两类:1)开发计算高效的推断算法,充分利用深度学习或硬件进步的成果,以校准归纳偏置或加速计算;2)依据具体应用场景,权衡计算成本与性能表现,通过调整推断方法与近似程度实现平衡。

7.2 贝叶斯神经网络表达能力的挑战

目前已有多种方法用于研究 BNN 的表达能力,主要包括:(a) 采用算术电路表征 BNN 查询[162];(b) 分析 BNN 所编码的交互概念[163];(c) 针对 BNN 推导通用逼近定理[135, 159, 164]。

然而,方法 (a) 与 (b) 并未直接评估 BNN 的函数逼近能力;而方法 (c) 所得的通用逼近定理通常受限于特定网络结构或先验分布。现有证据表明:在表达能力的某些方面(如编码复杂交互概念、处理中间不确定性),BNN 可能弱于 DNN。

尽管构建 BNN 通用表达能力理论仍面临根本性障碍,部分具体局限已可得到部分缓解。例如,Ren 等人[158]与 Lengerich 等人[214]证明:BNN 中简单的交互概念对对抗攻击具有鲁棒性,且泛化性能更优——表明编码相对简单交互概念的能力已不再是瓶颈。Choi 与 Darwiche[162]进一步提出了测试贝叶斯网络(testing Bayesian network),作为图结构 BNN 的扩展,可实现对边缘概率查询的通用逼近。

7.3 贝叶斯神经网络泛化能力的挑战

BNN 泛化理论的研究仍处于起步阶段,部分原因在于 BNN 的一致性目标与泛化目标之间存在错位(见第 5.1 节所述)。将贝叶斯推断与 PAC-贝叶斯泛化界的优化相联系,可在一定程度上缓解该问题。例如,针对 NLL 损失函数最小化 PAC-贝叶斯界,等价于最大化贝叶斯边缘似然[170]。然而,这两个概念并不等价,且边缘似然可能偏好泛化能力更弱的模型。为解决此问题,Lotfi 等人提出了条件对数边缘似然(conditional log marginal likelihood),证实其与泛化性能呈正相关[174]。

BNN 泛化的另一挑战在于其在域外检测(OOD detection)中的效果有限。传统 BNN 评估指标通常可分为三类:标准损失[175, 215, 216]、校准性[191, 217, 218]与鲁棒性[91, 137, 219]。采用标准损失的原因在于:后验平均通常优于确定性预测[220];而 BNN 的预测分布天然反映置信水平,从而提升校准性,并增强对对抗性噪声的鲁棒性。近期研究[79, 83, 150]亦在 OOD 数据样本上评估了预测不确定性的质量。

BNN 应用于 OOD 检测的基本原理在于:其通过维持参数上的后验分布 p ( θ ∣ D )
来建模认知不确定性(epistemic uncertainty)[221],这种机制从理论上天然适用于识别不熟悉的数据样本[203, 222]。然而,即便采用 HMC 等高保真推断技术,当测试数据受到污染或发生分布偏移时,BNN 的 OOD 表现仍然欠佳[175]。

Izmailov 等人[203]系统分析了多种分布偏移(包括测试数据损坏与域偏移)下的 OOD 泛化能力,发现 BNN 的表现常劣于单一 MAP 解。他们将此归因于分布偏移破坏了输入特征间的线性依赖关系。

同时,D’Angelo 与 Henning[222]指出:BNN 的 OOD 泛化能力受函数空间先验影响,而该先验由网络结构与权重空间先验共同塑造;他们进一步论证:该先验会限制后验为与先验信念相悖的模型分配概率质量,从而阻碍对 OOD 数据的不确定性估计。文献[188]提供了分布偏移下预测不确定性的实证对比。

在某些情况下,OOD 检测失败问题可通过调整先验加以缓解[203, 222]。另一种应对策略是研究 BNN 在 OOD 检测任务中的可学习性(learnability)。Fang 等人[223]作为奠基性工作,证明了在某些域空间与假设空间下,OOD 检测本质上不可学习,并提出了成功实现 OOD 检测的若干必要与充分条件。

7.4 冷后验效应

冷后验效应(cold posterior effect)指在 BNN 中对后验分布进行“退火”(tempering)可提升性能的现象[9, 172, 224, 225]。退火后的后验分布通常表示为:



数据增强(Data augmentation)。Wenzel 等人[172]首次通过 SG-MCMC 的实例正式引入冷后验问题;但 Izmailov 等人[175]表明,若排除数据增强,该效应便会消失。多项使用 SG-MCMC 的研究已证实,数据增强对于观察到冷后验效应至关重要[228–230]。数据增强通过对现有样本施加变换来扩充训练数据集,同时保持标签不变,但常会引入相关性,从而违反贝叶斯推断中的独立同分布(i.i.d.)假设[231]。假设存在一组有限变换 },SG-MCMC 的梯度更新会考虑这些相关性:





模型误设(Model misspecification)。在经典贝叶斯一致性理论中,当数据量 N D → ∞时,模型误设可能阻止后验分布收敛至真实分布,这发生在两种情形下:1)假设同方差噪声,而实际数据样本具有不同噪声水平;2)真实假设不在假设空间内[235, 236]。广义贝叶斯方法常用于解决此问题[237]。这两种情形在深度学习中均具相关性——异方差噪声可提升 DNN 性能[238],而多个局部极小值暗示不存在单一最优参数化[204]。Pitas 与 Arbel[239]将广义贝叶斯中的退火后验与冷后验效应联系起来,假设模型误设是导致该现象的根本原因。

尽管存在多种解释,冷后验效应仍缺乏充分理解。它可能源于多重因素,包括数据增强、先验选择与模型假设,而非单一成因[230]。

  1. 结论

本综述从优化泛化表征三个视角,深入探讨了贝叶斯神经网络(BNNs)在深度学习语境下的若干关键方面。

优化角度,我们强调了近似贝叶斯推断与深度学习优化技术之间的深刻联系,凸显二者相互启发、彼此促进的关系;同时指出:深度学习中高维参数空间与多峰损失景观的特性,与贝叶斯方法的基本假设相冲突,从而引发一系列实际挑战。

表达能力泛化理论方面,相关研究尚处早期阶段——虽借鉴了深度学习的分析框架,却面临贝叶斯一致性目标与权重不确定性所带来的独特困难。

此外,我们还剖析了 BNN 中特有的“冷后验效应”:尽管其成因尚未充分阐明,但该现象展现出提升后验质量的潜力,值得进一步探索。

通过厘清 BNN 与深度学习之间的共性与差异,并系统梳理当前挑战,本综述旨在为 BNN 领域的未来研究与技术突破提供理论指引与发展路径。

原文:https://www.sciencedirect.com/science/article/pii/S0950705125014777?via%3Dihub

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军为什么能在委内瑞拉毫无阻碍的长驱直入

美军为什么能在委内瑞拉毫无阻碍的长驱直入

磊子讲史
2026-01-05 18:07:42
2026第一天,支付宝把百万富翁惹毛了

2026第一天,支付宝把百万富翁惹毛了

科技每日推送
2026-01-05 17:01:28
好孩子!维尔茨赛后诚实表态引发热议,球迷:要脸,好感陡增

好孩子!维尔茨赛后诚实表态引发热议,球迷:要脸,好感陡增

凌空倒钩
2026-01-05 14:46:27
华友钴业:预计2025年度净利润为58.5亿元~64.5亿元,同比增长40.8%~55.24%

华友钴业:预计2025年度净利润为58.5亿元~64.5亿元,同比增长40.8%~55.24%

每日经济新闻
2026-01-05 17:50:11
刚刚!天津版“唐山宴”紧急通告:暂停试营业!大伙儿别跑空!

刚刚!天津版“唐山宴”紧急通告:暂停试营业!大伙儿别跑空!

天津生活通
2026-01-05 19:24:11
马杜罗贴身安保不携带电子设备,32名古巴公民在美对委行动中死亡 幸存士兵讲述

马杜罗贴身安保不携带电子设备,32名古巴公民在美对委行动中死亡 幸存士兵讲述

红星新闻
2026-01-05 15:51:26
辞职仅2天,好友曝最快女护士下步计划,田协除名风波已真相大白

辞职仅2天,好友曝最快女护士下步计划,田协除名风波已真相大白

法老不说教
2026-01-05 12:37:39
一份通知下来,一个价值几十亿的行业,瞬间被清零了!

一份通知下来,一个价值几十亿的行业,瞬间被清零了!

达文西看世界
2026-01-03 19:30:35
美军恐怖如斯!马杜罗被活捉,特朗普表态,告诉了全世界一个现实

美军恐怖如斯!马杜罗被活捉,特朗普表态,告诉了全世界一个现实

千里持剑
2026-01-03 18:21:46
理想汽车产品线大调整,从华为向丰田的转向

理想汽车产品线大调整,从华为向丰田的转向

晚点LatePost
2026-01-05 12:59:22
KKV深圳卓悦中心店再被强制闭店,双方回应

KKV深圳卓悦中心店再被强制闭店,双方回应

南方都市报
2026-01-05 22:26:30
平台的“1分钟”为何只有42秒?网友怒怼:不仅偷时间,还偷距离

平台的“1分钟”为何只有42秒?网友怒怼:不仅偷时间,还偷距离

数读网约车
2026-01-04 12:25:26
湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

LULU生活家
2025-12-24 18:51:10
罗德里格斯宣誓就任委内瑞拉临时总统

罗德里格斯宣誓就任委内瑞拉临时总统

新华社
2026-01-06 04:14:08
男人如何去刺激女人的荷尔蒙?方法很简单不信可以试试

男人如何去刺激女人的荷尔蒙?方法很简单不信可以试试

艾米手工作品
2025-12-20 08:59:14
俄特种部队嘲讽美军抓马杜罗:这不算什么,我们也能抓泽连斯基

俄特种部队嘲讽美军抓马杜罗:这不算什么,我们也能抓泽连斯基

桂系007
2026-01-06 01:44:56
德约科维奇宣布退出后,PTPA发表重磅声明反击:正遭到诽谤和恐吓

德约科维奇宣布退出后,PTPA发表重磅声明反击:正遭到诽谤和恐吓

网球之家
2026-01-05 23:56:11
老了才明白:父母一旦超过73!立刻停止3种行为,否则晚景会凄凉

老了才明白:父母一旦超过73!立刻停止3种行为,否则晚景会凄凉

阿凯销售场
2026-01-06 03:54:13
从英超第二滑落至降级区:卖主力“后遗症”发作,还是赛程太难?

从英超第二滑落至降级区:卖主力“后遗症”发作,还是赛程太难?

里芃芃体育
2026-01-06 04:00:03
央视主持人岗位完成调整,朱迅被下放,龙洋占据门面位置

央视主持人岗位完成调整,朱迅被下放,龙洋占据门面位置

丰谭笔录
2026-01-05 10:59:09
2026-01-06 05:23:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1130文章数 18关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

旅游
教育
房产
公开课
军事航空

旅游要闻

198.33万人次市民游客元旦假期畅游浦东,文旅市场迎来开门红

教育要闻

【堂堂上新!!!】2027TTS院校全程班|降低考研试错成本!!按部就班就是伟大!!!

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版