网易首页 > 网易号 > 正文 申请入驻

高维缺失网格上的高斯过程

0
分享至

Don’t Get Your Kroneckers in a Twist: Gaussian Processes on High-Dimensional Incomplete Grids

高维缺失网格上的高斯过程

https://arxiv.org/pdf/2605.08036

本文针对高斯过程(GP)在高维网格数据上计算成本高且严重依赖“完整网格”假设的瓶颈,提出一种适用于高维不完整网格的高效GP推理框架。

核心问题:传统基于Kronecker乘积的网格GP虽能大幅加速,但现实数据常存在缺失或不规则采样,直接破坏Kronecker结构,导致推断不可扩展或需昂贵补全。

创新方法:在保留Kronecker分解计算优势的前提下,结合结构化线性代数与变分推断,对缺失点进行高效边际化处理,避免显式构造完整协方差矩阵。

技术优势:将时间与空间复杂度降至近线性规模;天然支持高维输入;完整保留GP的不确定性量化能力;无需强假设或启发式插值。

应用价值:在时空预测、物理场反演、传感器网络等高维缺失数据场景下显著优于现有方法,为真实世界结构化数据的贝叶斯建模提供了可扩展、高保真的实用工具。



摘要

我们介绍了 CUTS-GPR,一种在高维设置下执行数值精确高斯过程回归 (GPR) 的新方法。CUTS-GPR 的关键组件是一个极快的核矩阵-向量乘积,它随着训练数据量 N 表现出近线性甚至线性的扩展性,并且随着维度 D 表现出低阶多项式的扩展性。这是通过将加性核不完整网格相结合,并利用所得核矩阵的结构来实现的。我们通过运行包含数十亿个数据点和数千个维度的基准测试,展示了该矩阵-向量乘积的可扩展性。完整的 GPR 计算,包括超参数优化,对于 N = 447 , 265 和 D = 24 的情况,可以在数小时内完成。我们证明了我们的 CUTS-GPR 能够实现高维势能面的贝叶斯建模——这是计算化学中长期存在的一个挑战。

1 引言




1.1 相关工作


2 背景

2.1 高斯过程回归




2.2 完整网格

在整篇论文中,我们关注的是位于网格上的 D D 维输入 x 。我们将首先定义一个完整网格(complete grid),它指的是像这样的笛卡尔积网格


2.3 加性核

对于高维应用,一种更具吸引力的核格式是加性核 [13–15],它通常由最大交互阶数 ω 来定义:




3 不完整网格




像示例 3.1 这样的索引集在张量文献中经常出现 [参见例如 16],也在振动结构理论中出现 [17]。在这两个领域中,相关维度被称为模式(modes),这是我们在下文中将使用的术语。给定一组一维网格,子网格由其模式组合(MC)唯一确定,它 simply 是非零索引模式的列表。反过来,不完整网格由其模式组合范围(MCR)定义,它 simply 是 MCs 的列表。因此,示例 3.1 对应于 MCR





事实证明,具备 CUD 性质是实现快速 MVP(矩阵-向量乘积)的关键属性。此外,与定义 3.3 [18] 相比,CUD 的概念可以进一步推广(另见附录 D),这为使用其他类型的不完整网格实现可扩展 GPR 开启了可能性。

4 结合不完整网格与加性核

我们现在将加性核与第 3 节中的不完整网格相结合。为此,我们引入以下方便的记号:





5 低扩展性实现

5.1 快速矩阵-向量乘积

我们现在的任务是将 chopping 框架应用于公式 (14) 中的核矩阵。在继续之前,我们要指出全 1 矩阵可以像这样进行因式分解



5.2 二次项与总成本


6 数值结果

6.1 计算复杂度



6.2 在 PES 数据上的应用

6.2.1 计算设置



6.2.2 结果

首先,我们要研究 CUTS-GPR 中超参数优化的收敛性。图 2c 展示了所有十种分子的学习曲线。范数在前 5–10 次迭代期间下降相当快,之后改进速度放缓。除硫代丙酮(thioacetone)外,所有分子都在大约 100 次迭代后收敛,硫代丙酮需要 176 步才能达到阈值。尽管用于优化的梯度是随机估计值,但收敛是稳定且系统的。我们将此归因于这样一个事实:进入梯度的几乎所有迹估计都确定得相当好,其均值标准误(SEM)小于 1%(示例见表 M4),尽管探测向量的数量(35)和预条件子的秩(10)并不是很大。


图 3 比较了 CUTS-GPR 和 SVGP 的最大绝对误差(MAX)和均方根误差(RMSE)(这两种误差度量均经过范围归一化并在十种分子上取平均)。数值可以在附录 M.9 中找到,该附录还考虑了平均绝对误差(MAE)。我们发现 CUTS-GPR 在所有三种误差度量(MAX、RMSE 和 MAE)上都优于 SVGP,这突显了精确处理核函数的优势。事实上,这对于每个单独的测试案例都是成立的(见附录 M.10)。CUTS-GPR 和 SVGP 之间的差异在最大误差方面尤为巨大,这表明尽管目标函数相当平滑,SVGP 仍无法描述最困难的点。如图 3 所示,随着额外诱导点的增加,SVGP 的误差表现出收益递减。因此,进一步增加其数量既不切实际,也不太可能显著提高精度。即使是对于 CUTS-GPR,最大误差也显著大于 MAE 和 RMSE。大误差主要出现在目标函数非常陡峭的点(示例见图 2d),考虑到训练网格的相对粗糙度,这是意料之中的。


7 结论、局限性与扩展

我们介绍了 CUTS-GPR,一种在高维设置下利用大型数据集进行数值精确高斯过程回归 (GPR) 的新方法。CUTS-GPR 基于两个极具吸引力的组件的组合:(i) 加性核和 (ii) 结构化不完整网格。仔细的分析揭示了一个令人惊讶的事实,即这种组合意味着一个高度结构化的核,这反过来允许可扩展的核矩阵-向量乘积 (MVP)。该 MVP 提供了关于维度 D 的低阶多项式扩展和关于数据量 N 的近线性甚至线性扩展,这一点我们在理论和实证上都进行了证明。在不近似核矩阵的情况下,CUTS-GPR 使得 GPR 能够在以前无法触及的设置中实现,潜在地包含数十亿个数据点和数千个维度——这远远超出了当前方法可行的范围。


尽管依赖于特定的数据结构可能被视为一种局限,但应该记住的是,通常情况下,用户控制着数据的采样,从而控制着数据结构。在诸如势能面 (PES) 拟合等我们在本文中考虑的应用中,不完整网格结构是一个非常自然的选择。

为非常大的测试集计算预测方差是我们当前实现中的一个瓶颈。在未来,我们要计划将 CUTS-GPR 与 Lanczos 方差估计 (LOVE) [25] 相结合,以实现更快的方差计算。


原文链接:https://arxiv.org/pdf/2605.08036

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成了,中国和美国谈成了

成了,中国和美国谈成了

安安说
2026-05-15 10:50:12
连过4辆雅马哈!张雪机车赛季第四冠!

连过4辆雅马哈!张雪机车赛季第四冠!

五星体育
2026-05-16 19:21:33
司机昏迷后踩到油门导致追尾,前车女司机死死将失控车辆顶住:“如果我开走了,对其他路人很危险”

司机昏迷后踩到油门导致追尾,前车女司机死死将失控车辆顶住:“如果我开走了,对其他路人很危险”

极目新闻
2026-05-15 19:08:44
U16国少4-2韩国U16夺邀请赛冠军,吴比乐双响,袁博涵2传1射

U16国少4-2韩国U16夺邀请赛冠军,吴比乐双响,袁博涵2传1射

懂球帝
2026-05-16 16:01:14
长隆:“家和”已不幸离世,大熊猫中心区暂停对外展示

长隆:“家和”已不幸离世,大熊猫中心区暂停对外展示

南方都市报
2026-05-16 19:17:52
79岁老人低血糖昏迷被误认将去世,初三孙子拨打120救下爷爷,事后为家人科普低血糖

79岁老人低血糖昏迷被误认将去世,初三孙子拨打120救下爷爷,事后为家人科普低血糖

大风新闻
2026-05-16 12:37:03
太激动!黄仁勋喝了杯蜜雪冰城,CEO马上发朋友圈“给显卡降温”

太激动!黄仁勋喝了杯蜜雪冰城,CEO马上发朋友圈“给显卡降温”

火山詩话
2026-05-16 06:18:41
突发:穆里尼奥与皇家马德里正式达成协议

突发:穆里尼奥与皇家马德里正式达成协议

本泽体育
2026-05-16 16:46:51
新娘换装46分钟宾客散场:当场给老公甩脸,店长曝更多,拒绝调解

新娘换装46分钟宾客散场:当场给老公甩脸,店长曝更多,拒绝调解

阿纂看事
2026-05-16 16:32:57
马斯克黄仁勋在空军一号热聊照曝光,喝了可乐,皮衣黄疑似用三星

马斯克黄仁勋在空军一号热聊照曝光,喝了可乐,皮衣黄疑似用三星

译言
2026-05-16 10:38:32
第9次抢七!盘点哈登之前8次抢七,到底有没有拉?

第9次抢七!盘点哈登之前8次抢七,到底有没有拉?

篮球实录
2026-05-16 13:51:41
血亏!大阪世博会190台电动巴士全部报废,巨亏67亿日元

血亏!大阪世博会190台电动巴士全部报废,巨亏67亿日元

颤抖的熊猫
2026-05-15 10:41:43
江西举报恩人沈女士已社死,正脸照被爆,大叔岗位被调,景区回应

江西举报恩人沈女士已社死,正脸照被爆,大叔岗位被调,景区回应

云舟史策
2026-05-16 09:39:33
特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

近史博览
2026-05-16 09:59:06
即将HWG!罗马诺:穆里尼奥接受了皇马方面的所有条件

即将HWG!罗马诺:穆里尼奥接受了皇马方面的所有条件

懂球帝
2026-05-16 14:24:50
海风:听到特朗普这句话,台湾当局该醒了

海风:听到特朗普这句话,台湾当局该醒了

环球网资讯
2026-05-16 17:37:05
50℃的生存考验!印度正在经历夺命高温,这很不正常!

50℃的生存考验!印度正在经历夺命高温,这很不正常!

52赫兹实验室
2026-05-16 12:09:54
中美会谈已结束,特朗普专机已离京,黄仁勋说了一句不寻常的话

中美会谈已结束,特朗普专机已离京,黄仁勋说了一句不寻常的话

麓谷隐士
2026-05-15 10:16:15
特朗普抵京当晚在机场执勤的礼兵震撼外网,详情披露:来自武警北京总队某部,哨兵离专机最近15米,担负特殊任务“夏不穿单、冬不穿棉”

特朗普抵京当晚在机场执勤的礼兵震撼外网,详情披露:来自武警北京总队某部,哨兵离专机最近15米,担负特殊任务“夏不穿单、冬不穿棉”

极目新闻
2026-05-16 08:58:39
张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

她时尚丫
2026-05-15 21:40:35
2026-05-16 21:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1405文章数 19关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

涉及五个方面 中美经贸磋商初步成果公布

头条要闻

涉及五个方面 中美经贸磋商初步成果公布

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

教育
亲子
家居
健康
手机

教育要闻

一图讲透提前批!

亲子要闻

“白血病”为何专挑孩子下手?建议:这5种食物,孩子再馋也别买

家居要闻

110㎡淡而有致的生活表达

专家揭秘干细胞回输的安全风险

手机要闻

直男对决,参数狂欢:iQOO 16与一加16的硬件配置几乎“撞车”!

无障碍浏览 进入关怀版