高维缺失网格上的高斯过程|向量

高维缺失网格上的高斯过程

2026-05-12 11:44:42　来源: CreateAMind

上海举报

分享至

Don’t Get Your Kroneckers in a Twist: Gaussian Processes on High-Dimensional Incomplete Grids

高维缺失网格上的高斯过程

https://arxiv.org/pdf/2605.08036

本文针对高斯过程（GP）在高维网格数据上计算成本高且严重依赖“完整网格”假设的瓶颈，提出一种适用于高维不完整网格的高效GP推理框架。

核心问题：传统基于Kronecker乘积的网格GP虽能大幅加速，但现实数据常存在缺失或不规则采样，直接破坏Kronecker结构，导致推断不可扩展或需昂贵补全。

创新方法：在保留Kronecker分解计算优势的前提下，结合结构化线性代数与变分推断，对缺失点进行高效边际化处理，避免显式构造完整协方差矩阵。

技术优势：将时间与空间复杂度降至近线性规模；天然支持高维输入；完整保留GP的不确定性量化能力；无需强假设或启发式插值。

应用价值：在时空预测、物理场反演、传感器网络等高维缺失数据场景下显著优于现有方法，为真实世界结构化数据的贝叶斯建模提供了可扩展、高保真的实用工具。

摘要

我们介绍了 CUTS-GPR，一种在高维设置下执行数值精确高斯过程回归 (GPR) 的新方法。CUTS-GPR 的关键组件是一个极快的核矩阵-向量乘积，它随着训练数据量 N 表现出近线性甚至线性的扩展性，并且随着维度 D 表现出低阶多项式的扩展性。这是通过将加性核与不完整网格相结合，并利用所得核矩阵的结构来实现的。我们通过运行包含数十亿个数据点和数千个维度的基准测试，展示了该矩阵-向量乘积的可扩展性。完整的 GPR 计算，包括超参数优化，对于 N = 447 , 265 和 D = 24 的情况，可以在数小时内完成。我们证明了我们的 CUTS-GPR 能够实现高维势能面的贝叶斯建模——这是计算化学中长期存在的一个挑战。

1 引言

1.1 相关工作

2 背景

2.1 高斯过程回归

2.2 完整网格

在整篇论文中，我们关注的是位于网格上的 D D 维输入 x 。我们将首先定义一个完整网格（complete grid），它指的是像这样的笛卡尔积网格

2.3 加性核

对于高维应用，一种更具吸引力的核格式是加性核 [13–15]，它通常由最大交互阶数 ω 来定义：

3 不完整网格

像示例 3.1 这样的索引集在张量文献中经常出现 [参见例如 16]，也在振动结构理论中出现 [17]。在这两个领域中，相关维度被称为模式（modes），这是我们在下文中将使用的术语。给定一组一维网格，子网格由其模式组合（MC）唯一确定，它 simply 是非零索引模式的列表。反过来，不完整网格由其模式组合范围（MCR）定义，它 simply 是 MCs 的列表。因此，示例 3.1 对应于 MCR

事实证明，具备 CUD 性质是实现快速 MVP（矩阵-向量乘积）的关键属性。此外，与定义 3.3 [18] 相比，CUD 的概念可以进一步推广（另见附录 D），这为使用其他类型的不完整网格实现可扩展 GPR 开启了可能性。

4 结合不完整网格与加性核

我们现在将加性核与第 3 节中的不完整网格相结合。为此，我们引入以下方便的记号：

5 低扩展性实现

5.1 快速矩阵-向量乘积

我们现在的任务是将 chopping 框架应用于公式 (14) 中的核矩阵。在继续之前，我们要指出全 1 矩阵可以像这样进行因式分解

5.2 二次项与总成本

6 数值结果

6.1 计算复杂度

6.2 在 PES 数据上的应用

6.2.1 计算设置

6.2.2 结果

首先，我们要研究 CUTS-GPR 中超参数优化的收敛性。图 2c 展示了所有十种分子的学习曲线。范数在前 5–10 次迭代期间下降相当快，之后改进速度放缓。除硫代丙酮（thioacetone）外，所有分子都在大约 100 次迭代后收敛，硫代丙酮需要 176 步才能达到阈值。尽管用于优化的梯度是随机估计值，但收敛是稳定且系统的。我们将此归因于这样一个事实：进入梯度的几乎所有迹估计都确定得相当好，其均值标准误（SEM）小于 1%（示例见表 M4），尽管探测向量的数量（35）和预条件子的秩（10）并不是很大。

图 3 比较了 CUTS-GPR 和 SVGP 的最大绝对误差（MAX）和均方根误差（RMSE）（这两种误差度量均经过范围归一化并在十种分子上取平均）。数值可以在附录 M.9 中找到，该附录还考虑了平均绝对误差（MAE）。我们发现 CUTS-GPR 在所有三种误差度量（MAX、RMSE 和 MAE）上都优于 SVGP，这突显了精确处理核函数的优势。事实上，这对于每个单独的测试案例都是成立的（见附录 M.10）。CUTS-GPR 和 SVGP 之间的差异在最大误差方面尤为巨大，这表明尽管目标函数相当平滑，SVGP 仍无法描述最困难的点。如图 3 所示，随着额外诱导点的增加，SVGP 的误差表现出收益递减。因此，进一步增加其数量既不切实际，也不太可能显著提高精度。即使是对于 CUTS-GPR，最大误差也显著大于 MAE 和 RMSE。大误差主要出现在目标函数非常陡峭的点（示例见图 2d），考虑到训练网格的相对粗糙度，这是意料之中的。

7 结论、局限性与扩展

我们介绍了 CUTS-GPR，一种在高维设置下利用大型数据集进行数值精确高斯过程回归 (GPR) 的新方法。CUTS-GPR 基于两个极具吸引力的组件的组合：(i) 加性核和 (ii) 结构化不完整网格。仔细的分析揭示了一个令人惊讶的事实，即这种组合意味着一个高度结构化的核，这反过来允许可扩展的核矩阵-向量乘积 (MVP)。该 MVP 提供了关于维度 D 的低阶多项式扩展和关于数据量 N 的近线性甚至线性扩展，这一点我们在理论和实证上都进行了证明。在不近似核矩阵的情况下，CUTS-GPR 使得 GPR 能够在以前无法触及的设置中实现，潜在地包含数十亿个数据点和数千个维度——这远远超出了当前方法可行的范围。

尽管依赖于特定的数据结构可能被视为一种局限，但应该记住的是，通常情况下，用户控制着数据的采样，从而控制着数据结构。在诸如势能面 (PES) 拟合等我们在本文中考虑的应用中，不完整网格结构是一个非常自然的选择。

为非常大的测试集计算预测方差是我们当前实现中的一个瓶颈。在未来，我们要计划将 CUTS-GPR 与 Lanczos 方差估计 (LOVE) [25] 相结合，以实现更快的方差计算。

原文链接：https://arxiv.org/pdf/2605.08036

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.