Frequentist Guarantees of Distributed (Non)-Bayesian Inference
频率学派对分布式(非)贝叶斯推理的保证
https://www.jmlr.org/papers/volume26/23-1504/23-1504.pdf
![]()
![]()
摘 要
我们为连接在网络上的多个智能体所面临的分布式(非)贝叶斯推断问题建立了频率学派性质,即后验一致性、渐近正态性以及后验收缩速率。这些结果源于对大规模、去中心化数据集进行分析的迫切需求,而分布式(非)贝叶斯推断已成为统计学、机器学习和经济学等多个领域中的关键研究方向。我们的结果表明,在通信图满足适当假设的条件下,分布式(非)贝叶斯推断在保持参数效率的同时,还能增强不确定性量化方面的鲁棒性。我们还通过考察通信图的设计与规模如何影响后验收缩速率,探讨了统计效率与通信效率之间的权衡关系。此外,我们将分析扩展至时变图,并将所得结果应用于指数族模型、分布式逻辑回归以及去中心化检测模型。
关键词:分布式推断,贝叶斯理论,Bernstein–von Mises定理,通信效率,网络上的估计
- 引 言
现代数据集通常由分布式系统生成并存储,例如社交媒体、传感器网络、区块链和基于云的数据库。然而,数据传输成本使得将这些数据集集中到单一机器上进行分析变得极其昂贵,甚至在某些情况下不可行。为应对这一挑战,研究者转向了分布式算法,以在通信受限的条件下实现去中心化的数据驱动决策(Borkar 和 Varaiya, 1982;Tsitsiklis 和 Athans, 1984;Gubner, 1993)。在此类系统中,一组智能体在一个通信网络结构内运行,每个智能体仅能与其邻居局部交换信息。这些智能体顺序地分析数据,各自独立进行推断,并通过网络结构定义的边共享推断结果;该网络结构可能随时间变化(Nedić 等, 2017;Uribe 等, 2022b)。
去中心化或分布式贝叶斯推断起源于统计学(DeGroot, 1974;Gilardoni 和 Clayton, 1993)。然而,直到过去十年计算能力的巨大进步,分布式推断的思想才在统计学界重新引起关注(Uribe 等, 2022a,b)。目前已有大量关于分布式贝叶斯推断的研究,旨在为大规模数据集开发可扩展且高效的后验计算算法(Jordan 等, 2018)。该领域的主要挑战之一是设计数据并行过程,通过将大规模数据集划分为更小的块,使其能在单个机器上独立处理。当前文献大多聚焦于“一次性”(one-shot)或“极易并行”(embarrassingly parallel)的方法,这类方法仅在计算流程结束时进行一轮本地机器与中央节点之间的通信。具体而言,这些方法在各本地机器上并行计算估计量或后验样本,然后将估计结果传送到中央节点,以形成全局估计量或后验近似(例如,通过计算各本地后验分布的Wasserstein重心)。
从马尔可夫链蒙特卡洛(MCMC)的角度来看,已有若干针对分布式贝叶斯推断的并行MCMC方法被提出(Neiswanger 等, 2013;Wang 和 Dunson, 2013;Minsker 等, 2014;Wang 等, 2015;Rabinovich 等, 2015;Scott 等, 2016;Li 等, 2017;Minsker 等, 2017)。这些方法从各子集后验中并行抽取样本,并将这些样本组合起来,以近似完整数据的后验测度。
从变分贝叶斯的角度出发,已有研究提出了用于分布式贝叶斯推断的算法,例如随机变分推断(Hoffman 等, 2013)。这些算法将数据分布到多台机器上,通过随机梯度下降(SGD)并行执行局部变分更新,并将全局变分参数更新为各局部最优解的加权平均。贝叶斯规则的变分解释(Walker, 2006)使得变分优化问题与后验分布之间可以双向对应。
除了统计学界的进展,分布式贝叶斯推断在微观经济学中也得到了研究,被称为“非贝叶斯社会学习”。该领域的代表性工作聚焦于其公理基础(Epstein 等, 2010)、达成共识的条件(Acemoglu 等, 2011)、各类学习规则(Golub 和 Sadler, 2017)以及信息聚合效应(Molavi 等, 2018)。这种跨学科的关注凸显了分布式贝叶斯推断技术的广泛相关性和适用性。在此框架中,智能体代表试图学习某个潜在世界状态 θ 的个体。与传统贝叶斯方法中每个智能体基于全部数据进行推断不同,“非贝叶斯学习”(经济学家如此称呼)模型刻画了个体在存在其他决策者、信息获取有限且仅通过社交网络互动的情境下如何进行推断。分布式贝叶斯学习框架提供了一种有前景的解决方案:它保留了贝叶斯学习的理想特性(如便于不确定性量化和灵活性),同时引入了一种符合现实行为假设的信息聚合形式。事实上,分布式贝叶斯规则已被证明能反映社会中个体行为的合理假设(Jadbabaie 等, 2012)。在特定分布假设下,该分布式框架具有解析可处理性,且在一般情形下具备计算可行性。更全面的文献综述可参见(Molavi 等, 2018)。
尽管经济理论在各种策略环境中探讨了社会学习,但其几乎完全是行为导向的,很少涉及实际数据。近期信号处理领域的研究则更深入地探讨了社会学习的统计性质,其中大部分工作聚焦于有限参数空间。例如,Braca 等(2010)研究了在局部备择假设下基于分布式检验统计量的二元检验的相对效率,并建立了该检验统计量的渐近正态性结果。在非贝叶斯社会学习设定中,Shahrampour 等(2015)假设参数空间有限,并给出了分布式信念与集中式信念之间KL散度的非渐近界。Lalitha 等(2014)从大偏差角度证明了信念以指数速率收敛到真实值。Bordignon 等(2021)研究了在步长趋于零的情形下智能体信念的渐近正态性。相比之下,Inan 等(2022)则在通信图为随机的情况下,研究了智能体信念向真实值收敛的一致性与收敛速率。
在离散有限参数空间中建立集中性界(concentration bounds)的技术严重依赖于对两个候选分布之间KL散度的控制。而在超越有限离散参数空间的工作则较为稀少。一个例子是 Uribe 等(2022a,b),他们在 Θ 为离散或紧致的情形下分别建立了 pjt(θ) 的一致性和集中性界。
本文研究连续参数空间(作为 ℝp 的子集)下、样本量(或时间)趋于无穷时非贝叶斯社会学习的渐近性质。尽管这一设定在社会学习文献中尚未充分探索,但从经典渐近理论(Van der Vaart, 2000)的角度看,它或许更为自然。建立此类理论填补了现有社会学习文献的空白,并与统计学中分布式贝叶斯推断文献建立起联系。
分布式贝叶斯方法已在电气工程、统计学和经济学等多个学科中引起广泛关注。然而,由于缺乏对其统计性质的严格分析,这些方法在统计学界的广泛应用仍受到阻碍。此外,理解这些性质对于深入认识不同通信模式下智能体的共识行为至关重要——这也是电气工程和经济学界共同关注的话题。本文研究了将随机镜像下降(SMD)算法应用于统计估计问题所产生的分布式贝叶斯过程(Uribe 等, 2022a,b)。我们的工作填补了一个关键空白:建立了此类分布式贝叶斯过程的频率学派性质,包括后验一致性、渐近正态性以及后验收缩速率。我们还通过研究后验收缩速率与通信图结构之间的关系,探讨了统计效率与通信成本之间的权衡。此外,我们通过实例说明了 Bernstein–von Mises 结果在不确定性量化中的实际效用。最终,我们希望激发统计学界对分布式贝叶斯方法的进一步兴趣,并为经济学和电气工程等领域的分布式贝叶斯推断奠定坚实的理论基础。
![]()
本文其余部分安排如下:第2节从优化视角引入分布式贝叶斯推断问题,并严格定义分布式贝叶斯后验。第3节概述了分布式贝叶斯后验一致性和渐近正态性的充分条件。第4节证明了分布式贝叶斯后验的一致性(定理3)。第5节在模型正确设定(定理10)和错误设定(定理14)两种情形下建立了 Bernstein–von Mises 定理。第6节提供了后验收缩速率的抽象与具体上界(定理15和定理18),特别强调模型误设情形。第7节将分析扩展至时变图,并在不同通信频率机制下建立了后验收缩速率(定理20)。第8节通过三个统计模型展示了我们结果的实际应用,包括指数族模型(命题24)、逻辑回归模型(命题25)以及分布式检测问题(命题27)——后者是电气工程中的一个典型问题。第9节总结全文,并讨论基于本研究结果的未来研究方向。
- 预备知识
![]()
集中式统计估计问题的目标是找到一个子集 Θ₀ ⊆ Θ,使得对于 θ₀ ∈ Θ₀,ℙθ₀ 是在某个度量意义下“最接近” ℙ₀ 的分布。从几何上看,目标是在概率测度集合 {ℙθ : θ ∈ Θ} 的子集中找到一个在给定拓扑下最接近 ℙ₀ 的点。该拓扑通常由概率空间上的散度定义,例如 Kullback-Leibler (KL) 散度、Rényi 散度等。KL 散度、Rényi 散度及其他散度函数的定义详见附录第 A.1 节。
可以说,最自然的估计问题应基于 KL 散度:
![]()
方程 (2.1) 在总体层面上等价于最大似然估计(MLE)。例如,如果真实分布 ℙ₀ 是标准正态分布 N(0,1),而参数族 ℙθ 是正态位置族 N(θ,1);θ ∈ [−1,1],则最优值为 θ₀ = 0。
求解 (2.1) 存在两个主要挑战。首先,由于 ℙ₀ 未知,通常用从该分布抽取的样本代替。由此产生的近似误差影响了 MLE 的样本复杂度,这在统计学文献中已被广泛研究(Van der Vaart, 2000)。第二个挑战是计算方面的。当集合 Θ 是离散的、非光滑的或不连通的时,诸如一阶优化方法等默认方法即使在总体层面上也无法直接应用于求解方程 (2.1)。
与其在 Θ 上最小化,一种常见做法是通过在 Θ 上的概率分布上最小化来“提升”该问题。
令 ΔΘ 表示定义在 Θ 上的概率密度函数空间。那么
![]()
其中 ΔΘ 是(假设的)所有在 Θ 上的概率分布构成的空间,且 ∫Θ p(θ)dθ = 1,同时 p(θ) ≥ 0。如果 θ₀ 满足方程 (2.1),则 p* = δθ₀ 满足方程 (2.2),因此这两个问题是等价的。然而,其优势在于,无论 Θ 所定义的拓扑如何,方程 (2.2) 都是一个连续优化问题;也就是说,Θ 可以是一个有限离散集合。
方程 (2.2) 引入了一种等价的统计估计表述形式,即将其转化为在 Θ 上的概率测度空间上的最小化问题。鉴于期望泛函的线性性质,Riesz 表示定理意味着存在一个内积 ⟨.,.⟩,用于刻画 Θ 上的期望。随后,我们将 KL 最小化问题重新表述为一个线性随机优化问题(至多相差一个常数):
![]()
![]()
该结果源于标准的变分贝叶斯论证(Knoblauch 等,2022)。
上述结果揭示了随机优化与广义贝叶斯推断之间一种引人入胜的相互作用。参数 α 既充当 SMD 更新中的步长,又作为广义贝叶斯规则中的温度参数。当 α 取值为 1 时,我们便恢复标准的贝叶斯定理。接下来,我们将探讨广义贝叶斯与 SMD 之间的联系,以基于分布式 SMD 算法构建一个分布式贝叶斯后验。
2.1 分布式贝叶斯推断
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2.2 分布式贝叶斯后验
本节提供了我们在本文中研究的分布式贝叶斯后验的严格定义。定义先验测度 Π 如下:
![]()
分布式贝叶斯后验的测度论定义等价于递归公式(2.9)。该定义表明,分布式贝叶斯后验是先验分布和替代似然的乘积。
![]()
![]()
![]()
假设
在整篇论文中,我们提出以下假设:
![]()
![]()
其余假设分为四类:通信图结构、私有统计模型的规律性、先验质量假设和一致性测试假设。后三者是贝叶斯渐近理论中的标准假设,有着良好的历史(见附录A.2节)。通信图的假设在第7节中放宽,以允许时间依赖性。
![]()
![]()
关于连通性的假设在网络通信文献中是标准的,以确保代理之间的信息流(Shahrampour 等人,2015;Nedic 等人,2017)。这三个假设确保具有转移矩阵 A 的马尔可夫链是不可约且非周期的。
![]()
![]()
假设2中描述的规律性条件是后验分布渐近分析的常见前提(Van der Vaart,2000)。直观上,对数似然的可微分性或凸性确保了最大似然估计量的一致性,而二次可微分性使得在真实值附近可以进行有效的二阶泰勒展开。这使我们能够利用最大似然估计量(MLE)的性质来描述后验的渐近性质。
下一组假设通常被称为先验质量或先验厚度假设。
![]()
后验一致性
![]()
![]()
![]()
![]()
该结果直接来自Miller(2021)的定理3。因此,证明省略。 在实践中,由于缺乏关于未知分布矩的信息,假设2(a)很难验证。在像柯西分布这样的重尾分布下,期望可能不存在。在下面的结果中,我们提供了一个更容易检查的信息论等价于假设2(a)。
![]()
![]()
渐近正态性
![]()
![]()
![]()
![]()
![]()
![]()
在定理10中,二次均值(DQM)假设(假设2(c))的可微性在实际环境中可能难以验证。我们用关于私有对数对数对数的二阶平滑性假设(假设2(e))来替代抽象的DQM假设。
推论11 如果将假设2(c)替换为假设2(e),则定理10成立。
二次均值(DQM)假设(假设2(c))的可微性和利普希梯度正则性假设(假设2(d))都可以被三阶平滑性假设(假设2(f))替代,后者通常被称为M估计量的渐近正态性的经典条件(Van der Vaart,2000)。
推论12 如果将假设2(c)和2(d)替换为假设2(f),则定理10成立。
![]()
![]()
![]()
收缩率
收缩率量化了后验分布接近数据生成分布的真实参数的速度。控制收缩率不仅细化了我们对后验一致性的理解,还有助于控制错误指定的伯恩斯坦-冯-米塞斯定理(定理14)中的采样复杂性。与前几节侧重于渐近结果不同,我们在本节提供非渐近界限和后验收缩率的缩放规律。我们的结果涉及样本大小 t、维度 p 和代理数量 m。
![]()
![]()
![]()
本节的主要定理在“先验质量和测试”框架下陈述。假设是对伯恩斯坦-冯-米塞斯定理假设的次指数细化:(a) 先验需要在真实参数的邻域内放置最少量的先验质量。(b) 限制在参数空间的一个子集内,存在一个测试函数可以将真实值与其邻域的补集区分开来;(c) 先验基本上支持在(b)中描述的子集。
![]()
![]()
![]()
![]()
![]()
![]()
该结果直接由定理15和17得出,因此证明从略。
该定理概述了设计参数如何决定分布式贝叶斯后验的收缩速率。公式中的第二项可以说是最有趣的。随着代理数量 m 的增加,收缩速率与 m log m 成正比,与 ν(最小正邻接权重)成反比。这表明,代理网络的规模和最小通信带宽(谱间隙)对后验收缩速率具有关键影响。此外,误差在最坏情况模型误设误差和平均模型误设误差中呈线性缩放,这表明偏离理想模型假设会惩罚收缩速率。
7. 扩展到时变图
本节将我们的理论扩展到一个特定的时变连通性场景:在完全连通图和“完全孤立的智能体”图之间交替。虽然这是一个简化的设定,但从理论角度看,它已足够丰富,能够揭示时变通信下推断的相变行为。
![]()
假设 5 提出的设定之所以有用,有多方面原因。理论上,此设定有助于严格研究统计效率与通信成本之间的权衡。它使我们能够探索,给定目标统计效率水平时,何种通信水平是“最优”的。在实际方面,此设定可概念化为一个以概率 λ λ发生完全故障的网络。在此类场景中,主要目标是量化这种间歇性连通水平如何影响系统内的整体学习质量。
我们在假设 5 的设定下,给出一个与引理 1 类似的结果。
![]()
![]()
![]()
在推论20中,“以概率1”这一表述是相对于定义在序列 A₁, A₂, … 上的测度而言的,其中每个 Aₜ 是一个独立的随机矩阵,以概率 λ 从两个确定性矩阵中抽取。重要的是,这与命题19所依赖的概率测度相同,我们将在后续内容中继续使用该测度。
改变通信频率 λ 会影响在网络中执行分布式贝叶斯推断的统计效率。在以下结果中,我们展示了 λ 对收缩速率的影响。
![]()
分布式理想后验分布 Pₜ 不依赖于通信图;因此,定理15仍然成立,且假设依然合理。由于收缩速率中唯一依赖于通信图的项是,推论21的论证直接建立在定理15和推论20的基础之上。证明详见附录中的第 C.3 节。
据我们所知,定理21是首个关于时变通信网络对分布式统计推断效率影响的结果。该结果在某种程度上违背直觉。人们自然会预期存在一种通信-统计权衡:即提高通信频率会导致更快的后验收缩速率。虽然更高的通信频率(λ ≥ 2/m)确实会导致更快的收缩速率,其缩放因子为 log λ / λ,但当频率低于 2/m 时,情况则不同。在此情形下,通信效率 λ 不再产生任何影响,而收缩速率仅取决于代理数量 m——其速率为 m²,而非 m log m。
这暗示了在 λ = 2/m 处可能存在一种“相变”现象,值得在未来研究中进一步探索。从实际角度而言,如果目标是在大型网络中平衡通信效率与统计性能,则通信频率 λ* = 2/m 似乎是最佳选择。
- 示例说明
8.1 指数族分布
![]()
指数族包括常用的高斯分布、指数分布、伽马分布、卡方分布、Beta 分布、Dirichlet 分布、Bernoulli 分布、分类分布、Poisson 分布、Wishart 分布、逆 Wishart 分布以及几何分布。在本节中,我们仅考虑标准指数族,并可互换地指代指数族和标准指数族。
指数族分布在贝叶斯推断中很有用,因为它们具有共轭性质。例如,如果先验分布和似然函数都属于指数族,则后验分布也属于指数族。这一性质在分布式设定下同样得以保持。
让我们考虑这样一种情形:在时刻 t,所有代理的信念均属于自然指数族。在此设定下,代理 i 关于参数 θ 的信念可描述如下:
![]()
![]()
![]()
![]()
![]()
该命题依赖于两个模型特定的假设。假设 i) 关注私有 Fisher 信息的正则性,这是广义线性模型(GLMs)中的一个标准前提,用以确保模型参数 θ 是可识别的(参见 Van der Vaart (2000) 中的例 16.8)。假设 ii) 施加了一个更严格的条件,要求协变量具有有界的三阶矩。该假设用于验证假设 2(f),在大多数应用中通常是合理的。
令 表示自由度为 p 的 χ² 分布在显著性水平 α 下的临界值。命题 25 在概率测度 Pᵗⱼ 下,针对参数 θ 指定了一个渐近有效的可信区域,置信水平为 1−α。该区域由满足以下条件的 θ 的集合给出:
![]()
![]()
命题 25 增强了分布式逻辑回归模型的鲁棒性。近似协方差中的平均 Fisher 信息确保了极端协变量值不会过度影响近似不确定性。模型特定的假设 i) 和 ii) 也可作为分布式逻辑回归模型何时达到期望的渐近性质的鲁棒性检验。在实践中,检查这些假设并使用拉普拉斯近似为分布式逻辑回归模型中的统计推断提供了一种高效可靠的方法,使其对各种数据不规则性具有更强的适应性。
8.3 分布式检测
![]()
![]()
![]()
- 讨论与未来方向
我们研究了分布式(非贝叶斯意义上的)贝叶斯推断的频率学统计性质,包括“后验”一致性、Bernstein–von Mises 定理以及“后验”收缩速率。我们的结果首次严格揭示了分布式贝叶斯推断的统计效率及其对底层通信网络设计参数(如代理数量和网络拓扑结构)的依赖关系。这些富有前景的结果为未来研究提供了若干方向。
未来的工作应考察在更复杂的时变网络结构下分布式贝叶斯后验的频率学统计性质,例如存在单链路故障的网络(Shahrampour 等,2015)或其它随机图结构,如 Erdős–Rényi 图(Erdős 等,1960)。理解分布式贝叶斯推断如何适应此类场景,对于在不可预测或对抗性环境中应用理论成果至关重要。
另一个引人关注的方向是探索分布式贝叶斯后验的频率学覆盖性质。这可包括在模型设定正确或误设情形下对置信区间或假设检验的分析。理解分布式贝叶斯后验如何与频率学准则相一致,可为模型提供额外的验证与稳健性检验。
在社会学习的背景下,还有多种方式可以拓展我们的结果。例如,Bordignon 等(2021)和 Hu 等(2023)在分布式更新规则(2.8)中引入了步长,并在固定样本量 n 下、步长趋于零的条件下建立了渐近正态性结果。可以将我们的结果与他们的工作相结合,以研究在时间与步长联合渐近机制下的极限分布。另一项可能的拓展是在离散且有限的参数空间 Θ 上证明 Bernstein–von Mises 定理,如 Bordignon 等(2021)和 Hu 等(2023)所探讨的情形。此外,还可以在后验更新过程中为似然项引入代理特定的权重(类似于 Bordignon 等,2023),以探究此类更新规则相较于使用与代理无关的权重时,对极限分布和收缩速率的影响。
人们或许可以将我们的工作与社会学习的微观经济学理论联系起来,例如 Molavi 等人(2018)的结果。来自非贝叶斯框架的见解——例如 DeGroot 模型(DeGroot, 1974;Acemoglu 等, 2011)的各种变体——有助于阐明分布式贝叶斯方法的收敛性质,尤其是在代理具有异质先验信念或受外部信号影响的情境中。
我们的工作补充了聚焦于通信效率的频率学分布式推断文献。未来的研究可以整合该领域中的成果,包括通信高效的方法(Jordan 等, 2018)和高维分布式统计推断(Battey 等, 2015),以设计并分析分布式贝叶斯方法。
最后,我们的理论发现可为实际应用中通信网络的设计提供指导。具体而言,对代理数量与通信成本之间相互作用的解析性理解,有助于构建更高效、更鲁棒的分布式贝叶斯系统。
![]()
原文链接:https://www.jmlr.org/papers/volume26/23-1504/23-1504.pdf
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.