Don’t Get Your Kroneckers in a Twist: Gaussian Processes on High-Dimensional Incomplete Grids
高维缺失网格上的高斯过程
https://arxiv.org/pdf/2605.08036
本文针对高斯过程(GP)在高维网格数据上计算成本高且严重依赖“完整网格”假设的瓶颈,提出一种适用于高维不完整网格的高效GP推理框架。
核心问题:传统基于Kronecker乘积的网格GP虽能大幅加速,但现实数据常存在缺失或不规则采样,直接破坏Kronecker结构,导致推断不可扩展或需昂贵补全。
创新方法:在保留Kronecker分解计算优势的前提下,结合结构化线性代数与变分推断,对缺失点进行高效边际化处理,避免显式构造完整协方差矩阵。
技术优势:将时间与空间复杂度降至近线性规模;天然支持高维输入;完整保留GP的不确定性量化能力;无需强假设或启发式插值。
应用价值:在时空预测、物理场反演、传感器网络等高维缺失数据场景下显著优于现有方法,为真实世界结构化数据的贝叶斯建模提供了可扩展、高保真的实用工具。
![]()
![]()
摘要
我们介绍了 CUTS-GPR,一种在高维设置下执行数值精确高斯过程回归 (GPR) 的新方法。CUTS-GPR 的关键组件是一个极快的核矩阵-向量乘积,它随着训练数据量 N 表现出近线性甚至线性的扩展性,并且随着维度 D 表现出低阶多项式的扩展性。这是通过将加性核与不完整网格相结合,并利用所得核矩阵的结构来实现的。我们通过运行包含数十亿个数据点和数千个维度的基准测试,展示了该矩阵-向量乘积的可扩展性。完整的 GPR 计算,包括超参数优化,对于 N = 447 , 265 和 D = 24 的情况,可以在数小时内完成。我们证明了我们的 CUTS-GPR 能够实现高维势能面的贝叶斯建模——这是计算化学中长期存在的一个挑战。
1 引言
![]()
![]()
![]()
1.1 相关工作
![]()
2 背景
2.1 高斯过程回归
![]()
![]()
![]()
2.2 完整网格
在整篇论文中,我们关注的是位于网格上的 D D 维输入 x 。我们将首先定义一个完整网格(complete grid),它指的是像这样的笛卡尔积网格
![]()
2.3 加性核
对于高维应用,一种更具吸引力的核格式是加性核 [13–15],它通常由最大交互阶数 ω 来定义:
![]()
![]()
![]()
3 不完整网格
![]()
![]()
![]()
像示例 3.1 这样的索引集在张量文献中经常出现 [参见例如 16],也在振动结构理论中出现 [17]。在这两个领域中,相关维度被称为模式(modes),这是我们在下文中将使用的术语。给定一组一维网格,子网格由其模式组合(MC)唯一确定,它 simply 是非零索引模式的列表。反过来,不完整网格由其模式组合范围(MCR)定义,它 simply 是 MCs 的列表。因此,示例 3.1 对应于 MCR
![]()
![]()
![]()
![]()
事实证明,具备 CUD 性质是实现快速 MVP(矩阵-向量乘积)的关键属性。此外,与定义 3.3 [18] 相比,CUD 的概念可以进一步推广(另见附录 D),这为使用其他类型的不完整网格实现可扩展 GPR 开启了可能性。
4 结合不完整网格与加性核
我们现在将加性核与第 3 节中的不完整网格相结合。为此,我们引入以下方便的记号:
![]()
![]()
![]()
![]()
5 低扩展性实现
5.1 快速矩阵-向量乘积
我们现在的任务是将 chopping 框架应用于公式 (14) 中的核矩阵。在继续之前,我们要指出全 1 矩阵可以像这样进行因式分解
![]()
![]()
5.2 二次项与总成本
![]()
6 数值结果
6.1 计算复杂度
![]()
![]()
6.2 在 PES 数据上的应用
6.2.1 计算设置
![]()
![]()
6.2.2 结果
首先,我们要研究 CUTS-GPR 中超参数优化的收敛性。图 2c 展示了所有十种分子的学习曲线。范数在前 5–10 次迭代期间下降相当快,之后改进速度放缓。除硫代丙酮(thioacetone)外,所有分子都在大约 100 次迭代后收敛,硫代丙酮需要 176 步才能达到阈值。尽管用于优化的梯度是随机估计值,但收敛是稳定且系统的。我们将此归因于这样一个事实:进入梯度的几乎所有迹估计都确定得相当好,其均值标准误(SEM)小于 1%(示例见表 M4),尽管探测向量的数量(35)和预条件子的秩(10)并不是很大。
![]()
图 3 比较了 CUTS-GPR 和 SVGP 的最大绝对误差(MAX)和均方根误差(RMSE)(这两种误差度量均经过范围归一化并在十种分子上取平均)。数值可以在附录 M.9 中找到,该附录还考虑了平均绝对误差(MAE)。我们发现 CUTS-GPR 在所有三种误差度量(MAX、RMSE 和 MAE)上都优于 SVGP,这突显了精确处理核函数的优势。事实上,这对于每个单独的测试案例都是成立的(见附录 M.10)。CUTS-GPR 和 SVGP 之间的差异在最大误差方面尤为巨大,这表明尽管目标函数相当平滑,SVGP 仍无法描述最困难的点。如图 3 所示,随着额外诱导点的增加,SVGP 的误差表现出收益递减。因此,进一步增加其数量既不切实际,也不太可能显著提高精度。即使是对于 CUTS-GPR,最大误差也显著大于 MAE 和 RMSE。大误差主要出现在目标函数非常陡峭的点(示例见图 2d),考虑到训练网格的相对粗糙度,这是意料之中的。
![]()
7 结论、局限性与扩展
我们介绍了 CUTS-GPR,一种在高维设置下利用大型数据集进行数值精确高斯过程回归 (GPR) 的新方法。CUTS-GPR 基于两个极具吸引力的组件的组合:(i) 加性核和 (ii) 结构化不完整网格。仔细的分析揭示了一个令人惊讶的事实,即这种组合意味着一个高度结构化的核,这反过来允许可扩展的核矩阵-向量乘积 (MVP)。该 MVP 提供了关于维度 D 的低阶多项式扩展和关于数据量 N 的近线性甚至线性扩展,这一点我们在理论和实证上都进行了证明。在不近似核矩阵的情况下,CUTS-GPR 使得 GPR 能够在以前无法触及的设置中实现,潜在地包含数十亿个数据点和数千个维度——这远远超出了当前方法可行的范围。
![]()
尽管依赖于特定的数据结构可能被视为一种局限,但应该记住的是,通常情况下,用户控制着数据的采样,从而控制着数据结构。在诸如势能面 (PES) 拟合等我们在本文中考虑的应用中,不完整网格结构是一个非常自然的选择。
为非常大的测试集计算预测方差是我们当前实现中的一个瓶颈。在未来,我们要计划将 CUTS-GPR 与 Lanczos 方差估计 (LOVE) [25] 相结合,以实现更快的方差计算。
![]()
原文链接:https://arxiv.org/pdf/2605.08036
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.