网易首页 > 网易号 > 正文 申请入驻

打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点

0
分享至



机器之心报道

机器之心编辑部

3D Gaussian Splatting (3DGS) 是一种日益流行的新视角合成方法,给定 3D 场景的一组带位姿的图像(即带有位置和方向的图像),3DGS 会迭代训练一个场景表示,该表示由大量各向异性 3D 高斯体组成,用以捕捉场景的外观和几何形状。



用户可以使用训练好的场景表示来渲染先前未见过的视角的图像。与其他新视角合成方法相比,3DGS 具有更快的渲染时间,同时能达到相当的图像质量,因此迅速普及开来。

3DGS 在当下的 3D 建模、数字孪生、影视制作 (VFX)、VR/AR 与机器人视觉重建 (SLAM) 等领域已展现出革命性的应用潜力。

使用 3DGS 渲染的图像质量取决于所训练场景表示的保真度。捕捉大面积区域或包含复杂细节的场景需要更多的高斯体。因此,3DGS 的内存占用会随着场景大小、场景复杂性或输出图像分辨率的增加而增长。

顶尖水平的 3DGS 实现运行在 GPU 上,而 GPU 的显存并不充裕。因此,在扩展 3DGS 并将其应用于具有高图像分辨率的大型复杂场景时,显存容量已成为一个障碍。

谢赛宁团队提出了 CLM 系统,该系统允许 3DGS 使用单块消费级 GPU(例如 RTX 4090)渲染大型场景。



  • 论文标题:CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting
  • 论文地址:https://arxiv.org/abs/2511.04951v1

CLM 的设计基于这样一种洞察:3DGS 的计算本质上是稀疏的,即每次训练迭代只访问场景高斯体的一个小子集。因此,只需将这个子集加载到 GPU 内存中,而将其余的高斯体卸载到更充裕的 CPU 内存中即可。

为了提高性能并减少通信开销,CLM 基于对 3DGS 内存访问模式的深入理解,采用了一种新颖的卸载策略。该策略利用了关于 3DGS 训练流水线的四个观察,最大限度地减少了性能开销并能扩展到大型场景:

  • 访问集的提前计算:每个视角(一张训练图像)所访问的高斯体集合可以提前计算出来,这使得加载一次迭代所需的高斯体可以与上一次迭代的计算重叠进行。
  • 重叠缓存:不同视角访问的高斯体之间存在大量重叠,这使研究者能够缓存重叠的高斯体,以减少每次训练迭代期间的通信量。
  • 空间局部性:训练过程表现出空间局部性;同一区域中的视角倾向于访问相同的高斯体。因此,可以仔细安排训练迭代,以最大化重叠访问并最小化总体通信量。
  • 重叠计算:进一步利用空间局部性来重叠梯度计算和大部分的高斯参数更新。

评估表明,由此产生的实现可以在单个 RTX 4090 上渲染一个需要 1.02 亿个高斯体的大型场景,并达到顶尖水平的重建质量。

此外当渲染可以装入基线系统 GPU 显存的小型场景时,与没有卸载的基线系统相比,CLM 针对 3DGS 的特定卸载解决方案仅产生适度的性能开销。

方法:基于稀疏性的卸载策略

团队通过将部分高斯点参数存储在固定页主内存中,并在需要时动态加载到 GPU 内存,从而解决了前面提到的挑战。此外,团队还充分利用了 3DGS 的若干独特特性,以显著降低卸载带来的通信开销。

3DGS 计算具有高度稀疏性

3DGS 的计算过程是稀疏的:在渲染(无论是训练阶段还是推理阶段)时,只有场景中一小部分高斯点会被实际使用。这是因为每个视角都对应一个相机位姿,只有位于相机视锥体(frustum)内的高斯点才可能对最终渲染图像产生贡献(如下图所示)。



而事实上,3DGS 的渲染流程在处理某个视角之前,会显式计算出该视角内的高斯集合,然后再对这些高斯点进行渲染处理(如下图所示)。



实验发现,在大场景中,单个视角访问的高斯点数量占比通常不到 1%,可通过计算场景中视角 i 的稀疏度来量化这一点:,其中,是视角 i 所涉及的高斯点集合,N 是高斯点的总数。



团队利用这种空间局部性(spatial locality),来优化 CPU 与 GPU 之间的数据传输:

  • microbatch(微批次)调度优化:提前计算每个 microbatch 的稀疏模式,并合理安排它们的处理顺序,使得相邻批次之间的访问模式尽可能重叠,从而提高缓存命中率。
  • GPU 缓存机制:将连续 microbatch 中频繁访问的高斯点保存在 GPU 缓存中,从而减少重复的数据传输,显著降低通信开销。

稀疏模式的高效计算

在传统 3DGS 实现中,所有高斯点参数被存储在单个张量中,并且在 GPU 上执行视锥剔除以确定某个视角的稀疏模式。然而,这种做法要求所有高斯点都预先加载到 GPU 内存,这与「仅加载必要高斯点」的设计目标相冲突。

因此,团队通过仅使用部分高斯信息来预估稀疏模式,避免了不必要的 GPU 内存占用,为后续的高效卸载与缓存策略奠定了基础。

系统设计

CLM 的核心思路是:通过将高斯参数和部分优化器计算卸载到 CPU 端,来扩展有效的 GPU 显存容量;同时基于 3DGS 稀疏性和空间局部性的观察结果,最大限度地减少 GPU-CPU 通信与 CPU 计算的开销。

目前 CLM 的实现基于 CUDA,但其设计与渲染后端无关,也可移植到 Vulkan 平台。

整体来看,CLM 的训练流程基本是这样进行的:首先,CLM 选取一批训练图像及其对应视角,并使用视锥剔除计算出每个视角 i 所需的高斯集合 ,可将其称为「视锥内高斯」(in-frustum Gaussians)。

接着,将一个 batch 划分为多个 microbatch(微批次),以便在训练中启用流水线执行。更重要的是,CLM 根据视锥剔除的输出结果,优化 microbatch 的执行顺序,以最大化空间局部性。

最后,每个 microbatch 在流水线中执行,使得通信与计算(GPU 与 CPU)能够重叠进行。

具体而言:处理 microbatch 时,CLM 会将所需的视锥内高斯加载到 GPU 内存,通过 Gaussian Caching(高斯缓存机制) 避免重复加载连续 microbatch 中共享的高斯点。之后 GPU 执行前向与反向传播,梯度被传回 CPU,而一个并行 CPU 线程执行 Adam 优化器,更新高斯参数。



如上图所示:

  • 加载 microbatch i 的视锥高斯时,与 microbatch i−1 的 GPU 反向计算重叠;
  • 传输 microbatch i 的梯度时,与 microbatch i+1 的 GPU 前向计算重叠。

而对于那些在某个 microbatch 中最后被更新的高斯点,CLM 会在 CPU 上完成其对应的 Adam 更新,并与后续microbatch的 GPU 前向 / 反向计算并行执行。

经过一系列的实验、评估,可以发现:CLM 具备更大规模的模型训练能力,通过将部分计算与数据卸载至 CPU,CLM 使得 3DGS 的可训练模型规模相比纯 GPU 训练基线提升了最高 6.1 倍;更高的重建质量,CLM 能够训练更大的模型,从而提升场景重建精度;更低的通信与卸载开销。

了解更多详细内容,请参考原论文!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拜合拉木打进韩国2球,被换下时的举动更加圈粉,邵佳一看在眼里

拜合拉木打进韩国2球,被换下时的举动更加圈粉,邵佳一看在眼里

球场没跑道
2025-11-15 23:17:51
人民日报:唱衰香港的滥调可休矣!

人民日报:唱衰香港的滥调可休矣!

上观新闻
2025-11-15 06:57:02
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
拔出萝卜带出泥!张雪峰"出轨"风波升级,知情人爆料,本人破防了

拔出萝卜带出泥!张雪峰"出轨"风波升级,知情人爆料,本人破防了

白面书誏
2025-11-14 18:33:59
史上规模最大的成人游戏节上线Steam!年度游戏评选中

史上规模最大的成人游戏节上线Steam!年度游戏评选中

游民星空
2025-11-15 11:05:00
颜丙燕气质绝绝子,年过半百身材能打,大胸围丰腴曲线自带韵味?

颜丙燕气质绝绝子,年过半百身材能打,大胸围丰腴曲线自带韵味?

娱乐领航家
2025-11-15 22:00:03
斯诺克赛程:19局10胜决出冠军,小特拒绝决赛3连败,新王或登基

斯诺克赛程:19局10胜决出冠军,小特拒绝决赛3连败,新王或登基

刘姚尧的文字城堡
2025-11-16 08:01:12
双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

奇思妙想草叶君
2025-11-14 23:39:25
白酒再次成为关注中心!医生发现:糖尿病喝白酒时,多留意8点!

白酒再次成为关注中心!医生发现:糖尿病喝白酒时,多留意8点!

素衣读史
2025-08-28 13:45:54
曾主任的运动照被扒出!笑容灿烂很有韵味,网友:挺阳光的人

曾主任的运动照被扒出!笑容灿烂很有韵味,网友:挺阳光的人

鋭娱之乐
2025-11-13 00:45:03
老板让我帮忙娶他情妇,我帮人帮到底,1年后老板娘一胎,情妇龙凤胎

老板让我帮忙娶他情妇,我帮人帮到底,1年后老板娘一胎,情妇龙凤胎

温情邮局
2025-11-14 10:40:23
一声叹息!杨兰兰案第四次开庭否认所有指控,可能不了了之

一声叹息!杨兰兰案第四次开庭否认所有指控,可能不了了之

热点菌本君
2025-11-14 14:06:36
AI重磅!英伟达,即将发布!

AI重磅!英伟达,即将发布!

证券时报
2025-11-16 08:23:04
库里带领勇士大胜马刺后谈雷霆:到了现在,谁还没输给过雷霆呢

库里带领勇士大胜马刺后谈雷霆:到了现在,谁还没输给过雷霆呢

好火子
2025-11-16 00:27:31
一夜3大消息!首位主帅下课,杜兰特超越哈登,湖人遭联盟调查

一夜3大消息!首位主帅下课,杜兰特超越哈登,湖人遭联盟调查

体坛小李
2025-11-16 09:05:13
体育世家出好苗!18岁小将击败潘展乐3天拿3金,还是复旦高材生

体育世家出好苗!18岁小将击败潘展乐3天拿3金,还是复旦高材生

以茶带书
2025-11-14 18:10:02
难以置信:刘道玉的几件奇葩事!

难以置信:刘道玉的几件奇葩事!

仕道
2025-11-14 09:07:07
比弗利富婆集体回春,桑切斯展少女般皮肤状态,美貌不逊于肯豆

比弗利富婆集体回春,桑切斯展少女般皮肤状态,美貌不逊于肯豆

刘蕳爱下厨
2025-11-14 22:30:55
曝王思聪已与懒懒分手成功,懒懒变卖手中奢侈品,价格贵的离谱

曝王思聪已与懒懒分手成功,懒懒变卖手中奢侈品,价格贵的离谱

千言娱乐记
2025-11-15 19:42:22
大爆发!新鹰王狂轰31+18+14+7,再见吹杨,2.29亿大合同没了

大爆发!新鹰王狂轰31+18+14+7,再见吹杨,2.29亿大合同没了

球童无忌
2025-11-15 14:59:01
2025-11-16 11:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

数码要闻

英伟达RTX 5080 SUPER显卡前瞻:24GB GDDR7显存成最大亮点

头条要闻

牛弹琴:中国看透了高市早苗 采取前所未有的反制措施

头条要闻

牛弹琴:中国看透了高市早苗 采取前所未有的反制措施

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

中国县城的打工人,快被AI培训班包围了

科技要闻

谁在炒作全固态电池?

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

家居
旅游
游戏
公开课
军事航空

家居要闻

现代简逸 寻找生活的光

旅游要闻

孝义市胜溪湖

育碧与XGP携手举办《彩虹六号:围攻X》1V1大赛

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版