哈工大联手华为诺亚方舟：让3D场景重建学会"按需分配"资源|天空|气泡|知名企业

分享至

这项由哈尔滨工业大学、华为诺亚方舟实验室与深圳技术大学合作完成的研究，以预印本形式于2026年5月8日发布在arXiv平台，编号为arXiv:2605.07287。感兴趣的读者可通过该编号检索完整论文。

**研究背景：当AI开始"看懂"三维世界**

手机拍几张照片，电脑就能还原出一个可以任意角度游览的三维场景——这件事听起来像科幻，但它正是计算机视觉领域近年来最热门的研究方向之一，专业上叫做"新视角合成"（Novel View Synthesis）。简单说，就是给AI几张照片，让它补全那些没有被拍到的角度。

支撑这一能力的核心技术之一叫做"3D高斯泼溅"（3D Gaussian Splatting，简称3DGS）。这项技术把三维场景想象成由无数个半透明的"气泡"（专业上称为"高斯基元"）堆叠而成，每个气泡都有自己的位置、大小、颜色和透明度。当你从任何一个角度去看这堆气泡，渲染引擎就会把它们投影合成，呈现出那个角度下场景应有的样子。这种方法渲染速度极快，效果也相当逼真。

不过，现有的大多数方法在"怎么分配这些气泡"这件事上犯了一个直觉性的错误——它们对场景里的每一个像素点，都分配固定数量的气泡，不管那个像素点对应的是精细的砖墙纹理，还是一整块白色的天花板。这就像一位画家，不管是在画精细的人物表情，还是在刷背景的大片天空，都强迫自己用完全相同数量的笔触——结果必然是在简单区域浪费了大量笔墨，却在复杂区域力不从心。

正是为了解决这个"一刀切"的问题，研究团队提出了名为**SplatWeaver**的新框架。

一、画师的智慧：为什么"按需分配"比"平均主义"聪明得多

回到那位画家的比喻。一位真正有经验的画师在面对一幅风景画时，会本能地把大量笔触集中在山峰的棱角、树叶的层叠纹理、人物的五官表情上，而在处理远处连绵的山体或者均匀的天空时，则会大笔挥洒、简单带过。这种"复杂处精细、简单处粗放"的直觉，正是艺术创作中长期积累出来的效率智慧。

然而现有的AI三维重建方法做不到这一点。以"像素对齐"方案为例，它对输入图像的每个像素都预测固定数量的高斯气泡，图像有多少像素，气泡数量就成倍增长，既浪费又无法保证质量。以"体素对齐"方案为例，它把三维空间划分成均匀的格子，每个格子预测同样多的气泡，同样无法区分哪里简单哪里复杂。还有一些方法尝试事后"剪枝"——先生成一大堆气泡，再把多余的删掉——但这就像先把房间堆满杂物再花时间整理，效率先天不足，而且判断哪些气泡"多余"本身就不够精准，容易误删重要细节。

另外还有一类基于"查询"的方法，预先设定好一个固定的气泡总量，用神经网络学习如何分配，但无论场景多大多小、多复杂多简单，气泡总数始终不变，在大场景中显然不够用，在小场景中又大量浪费。

SplatWeaver的核心思路是：在生成气泡之前，先判断每个像素点对应的场景区域有多复杂，然后根据复杂程度来动态决定这里要放多少个气泡。这不是事后修剪，而是从一开始就"按需定制"。

二、专家团队上岗：把"分配决策"变成一套精密的协作机制

为了实现这种按需分配，研究团队设计了一套被称为"基数高斯专家路由"（Cardinality Gaussian Expert Routing）的系统。

这套系统的核心是几位"专家"的分工协作。每位专家都只做一件事：负责预测特定数量的高斯气泡。具体来说，系统里有一位"零号专家"（Null Expert），它什么气泡都不产生，专门负责平滑区域，告诉系统"这里不需要任何气泡"；然后是"一号专家"，负责产生1个气泡；"二号专家"负责产生2个；"三号专家"负责产生3个。实验表明，最多3个气泡的上限已经足够覆盖绝大多数场景的细节需求，同时也不会让决策变得过于复杂。

与这几位专家配套的，是一个"路由器"（Router）。路由器的工作是审视图像中每一个像素点的特征，然后决定把这个像素"派给"哪位专家处理。这个决策是硬性的、离散的——不是"30%交给一号专家、70%交给三号专家"这种模糊分配，而是"你就归三号专家管"这种明确指令。这种方式保留了专家预测结果的物理意义，因为气泡的空间位置是一个具体坐标，不能被概率权重"稀释"。

值得关注的是，这里的专家并不直接输出气泡的全部参数。每位专家只负责预测气泡的"位置"和一个"隐含特征编码"，可以理解为先确定气泡放在哪里，再决定气泡长什么样。这种分步设计让后续的参数预测可以借助周边气泡的空间信息来提升精准度，而不是在信息孤立的状态下盲目猜测。

三、频率先验：让AI学会"看懂复杂度"的秘密武器

路由器要做好分配决策，前提是能准确判断场景各区域的复杂程度。但这个"复杂度"并不是一眼就能看出来的。研究团队发现，可以借助一种经典的信号处理工具来解决这个问题：离散小波变换（Discrete Wavelet Transform，DWT）。

用更直白的话说，DWT能把一张图像拆解成"低频部分"和"高频部分"。低频部分对应图像的整体轮廓和大块颜色，高频部分则对应细节、纹理和边缘——砖墙的缝隙、树叶的边缘、文字的笔画，这些都集中在高频部分。研究团队发现，把图像的高频分量提取出来形成一张"高频能量图"，这张图与实际进行完整3DGS重建时气泡密集分布的区域高度吻合。换句话说，高频能量强的地方，恰恰就是需要更多气泡的地方。

基于这一发现，研究团队设计了"频率先验引导模块"（Frequency Prior Guidance Module）。这个模块在路由器做决策之前介入，对像素特征进行一番"加工"：它先对输入图像做小波变换，提取出高频分量，然后通过一系列神经网络层把这些高频信息转化成一张注意力图，最后用这张注意力图来强化像素特征中与复杂度相关的部分。经过这番处理，路由器拿到的像素特征里已经"预埋"了复杂度信息，决策自然更加准确。

除了这个模块，研究团队还设计了一个"路由正则化损失"。具体做法是：对一个场景里所有视角的所有像素，根据高频能量值从高到低排序，然后为排名靠前的像素赋予"应该分给高数量专家"的监督标签，为排名靠后的像素赋予"应该分给低数量专家"的标签。这个监督信号在训练前期发挥作用，帮助路由器建立起"复杂区多分配、简单区少分配"的基本直觉。到了训练后期，这个约束会被解除，让模型在已有的良好基础上自由探索最优的分配策略。

此外，系统还设有一个"预算控制项"，确保整个场景的气泡总数不超过像素总数的0.3倍。这个软约束不是强制截断，而是当气泡数量超标时施加惩罚，引导模型在保证质量的前提下保持精简。

四、邻居互助：让每个气泡都能参考周围同伴再"定型"

当路由器决定了每个像素点该产生几个气泡，专家们也预测出了气泡的初始位置和隐含特征之后，还有最后一道工序：确定每个气泡的完整参数，包括大小、旋转方向、透明度和颜色。

这道工序叫做"邻域条件高斯参数预测"（Neighbor-Conditioned Gaussian Parameter Prediction）。核心思路是：一个气泡不应该孤立地决定自己的形态，而应该参考周围邻居气泡的信息，从而在局部保持几何一致性。

具体实现上，系统会为每个气泡找到在三维空间中距离它最近的8个邻居气泡，然后通过一种类似"注意力机制"（Attention）的方式，让这个气泡的特征与邻居的特征、以及相对空间位置编码进行交互融合。这个过程有点像一群人在讨论如何装修一面墙：每个人不只看自己负责的那一块，还会参考左右两侧同事的选择，最终呈现出一个风格协调的整体效果。

由于整个场景里可能有几十万甚至上百万个气泡，逐一搜索最近邻居的计算量会非常惊人。研究团队采用了一个"粗到细"的策略：先把气泡聚类，确定大致的邻域范围，再在局部范围内做精确搜索，借助GPU加速库可以在毫秒级别完成数百万气泡中的邻居搜索。

最终，每个气泡的大小、旋转、透明度和颜色都通过这个融合了邻居信息的特征来预测，保证了气泡群体在局部的物理合理性和视觉连贯性。

五、训练与实验：用数字说话

整个系统在8块英伟达A100显卡上训练，使用了9个来自不同场景的公开数据集，包含室内、室外、合成场景、真实采集场景等各种类型。训练过程中，每批次随机抽取2到24张图像作为输入，图像最大边长限制在448像素，长宽比随机变化，这种多样化的训练配置使模型能够适应各种实际拍摄条件。

训练完成后，研究团队在三个不同的测试基准上进行了评估。DL3DV是一个包含大量室内外多样化场景的大规模数据集，测试集有140个场景；RealEstate10K是来自真实房产视频的室内外场景数据集；Mip-NeRF 360则是7个真实场景的360度无边界环境数据集，几何结构复杂、深度变化大。评估分别在输入4张、8张、16张和24张图像的条件下进行，覆盖了从极端稀疏到相对密集的不同信息量场景。

评估指标方面，研究团队使用了三个标准衡量渲染质量：PSNR（峰值信噪比，数值越高越好，反映像素级别的还原精度）、SSIM（结构相似性，越高越好，衡量画面结构的保真度）和LPIPS（感知相似性，越低越好，模拟人眼对图像差异的感知）。此外，气泡总数量也是关键指标，体现了方法的紧凑程度。

在DL3DV数据集16张输入图像的条件下，SplatWeaver相比当时最强竞争对手AnySplat的PSNR高出1.02分贝，而气泡数量仅为其30%。换句话说，用不到三分之一的"气泡预算"，取得了更好的渲染质量。在RealEstate10K和Mip-NeRF 360两个零样本测试集（训练时完全未见过这类数据）上，SplatWeaver同样保持了一致的领先优势，显示出良好的泛化能力。

研究团队还提供了一个"极致紧凑版本"SplatWeaver+，通过进一步压缩预算约束，使气泡数量降至普通版本的约三分之一（不足竞争对手的10%），但渲染质量依然与多数现有方法相当甚至更优。

在稠密视角合成（使用64张输入图像）场景下，SplatWeaver与需要精确相机参数标定的优化类方法（如3DGS、Mip-Splatting）以及依赖已知相机位姿的前馈方法（如Long-LRM）相比，同样在各项指标上领先，所用气泡数量（905K）也远少于AnySplat的5745K。

相机位姿估计的评估同样证明了SplatWeaver的优势：在RealEstate10K和CO3Dv2两个数据集上，其位姿估计精度均超过了直接使用VGGT（视觉几何基础模型）以及AnySplat。研究团队认为，这得益于更精简却更具代表性的高斯场景表示——当气泡的分布更加合理时，从场景结构中提取几何先验的效果也更好，进而有助于相机位姿的精确估计。

在效率对比上，SplatWeaver在16张输入条件下的推理延迟为1.9秒，存储占用29.2MB，渲染帧率301FPS，均优于或接近其他方法，而渲染质量（PSNR 20.11）则在所有方法中排名最高。

六、深挖细节：消融实验揭示每个组件的真实价值

为了弄清楚每个设计选择到底贡献了多少，研究团队做了一系列"拆解实验"，逐步移除不同组件，观察性能变化。

从最基本的"朴素剪枝"基线开始，它的PSNR仅为17.56分贝。加入基数高斯专家路由机制后，PSNR跃升至19.19，提升了1.63分贝，这是最大的单一提升，直接验证了按需分配机制的核心价值。再加入频率先验引导（包括引导模块和正则化损失），PSNR进一步升至19.77，提升0.58分贝，说明高频先验对路由决策质量有实质性的改善。最后加入邻域条件参数预测，PSNR来到20.11，再提升0.34分贝，证明了借助邻居信息改善参数估计这一思路的有效性。

研究团队还测试了不同专家数量的影响。使用2位专家时PSNR为19.23，使用3位时为19.57，使用4位时达到最优的20.11，而增加到5位时性能微降至20.05。由此确定4位专家（零号、一号、二号、三号）为最佳配置——既有足够的分配粒度，又不会因为优化空间过高而增加训练难度。

对邻居数量K的测试显示，K从4增加到8时性能稳步提升（PSNR从19.88到20.11），K继续增加到10时几乎没有额外提升，但推理延迟略有增加。因此最终选择K=8作为默认值。

针对路由正则化中高频能量分位数参数ρ的敏感性测试显示，当ρ?和ρ?过大时（如各占10%），会扰乱平滑区域的分配平衡，导致性能下降。在合理范围内（最终选择ρ?=2%、ρ?=2%、ρ?=20%），模型对具体取值不太敏感，体现出良好的鲁棒性。

预算控制因子ε从0.1增加到0.3时带来显著的质量提升（PSNR从19.52到20.11），继续增加到0.5和1.0时提升变得越来越小，而气泡数量却急剧膨胀（从451K增至1744K）。可见0.3是质量与效率的最优平衡点，此后继续堆砌气泡只会带来边际递减的回报。

七、可视化验证：专家们真的"学会了区分复杂度"

实验结果的数字固然重要，但更直观的证据来自可视化分析。研究团队对不同场景中每个像素被分配给哪位专家的情况进行了可视化。

结果清晰地显示出"复杂处密集、简单处稀疏"的分配模式：平整的墙壁、单色的地板、均匀的天空，大量被路由到零号专家或一号专家，几乎不产生气泡；而砖墙纹理、植物枝叶、室内家具、建筑细节等区域，则被路由到三号专家，密集地铺满气泡。

加入频率先验引导与不加入的对比图同样说明了问题：没有频率先验时，路由决策显得混乱，气泡分布缺乏与场景结构的对应关系；加入之后，分配模式与场景的几何复杂性高度吻合。

此外，对不同专家预测的气泡"尺寸分布"的可视化也颇具说服力：低基数专家（零号、一号）倾向于预测大尺寸气泡，用少量大气泡覆盖平坦区域；高基数专家（三号）预测的则以小尺寸气泡为主，用密集的细小气泡捕捉高频细节。这种自发涌现的专业化分工，与绘画直觉高度一致，也印证了整个设计框架的物理合理性。

场景几何可视化进一步表明，SplatWeaver不仅能生成高质量的新视角图像，还能生成精确的深度图，说明气泡的空间分布准确反映了场景的三维结构，而非仅仅在二维投影层面"凑出"正确颜色。

说到底，SplatWeaver做的事情并不神秘，但它解决的问题是真实存在的。就像一座城市的供电网络，不会给每条街道铺设同样粗细的电缆——商业中心用电量大，就铺更粗的电缆；荒郊野外用电量小，细电缆就够了。让AI的三维重建系统也学会这种"按需分配"的道理，带来的效益是双重的：既省下了不必要的"气泡"开销，又把有限的资源集中到真正需要的地方，从而提升了整体质量。

这项研究对普通人意味着什么？短期内，它可能推动手机AR应用、在线三维看房、影视特效制作等场景下的三维重建工具变得更快、更精准、更省存储空间。更长远地看，当三维场景重建不再需要大量计算资源，它就有可能真正下沉到消费级设备上，让普通人拍几张照片就能生成可以分享的三维场景成为日常操作。

归根结底，有时候最聪明的进步不是"做得更多"，而是"把资源放在更对的地方"。感兴趣的读者可以通过arXiv编号2605.07287找到完整论文，亦可前往GitHub页面 yecongwan/SplatWeaver 查阅开源代码。

Q&A

Q1：3D高斯泼溅技术是什么，和普通3D建模有什么区别？

A：3D高斯泼溅是一种用大量半透明"气泡"来表示三维场景的技术，每个气泡有自己的位置、大小、颜色和透明度。与传统3D建模需要人工构建网格不同，它可以从照片自动学习生成，渲染速度极快，通常能达到每秒数百帧。SplatWeaver就是在此基础上，让气泡分配更加智能。

Q2：SplatWeaver和现有方法相比到底快了多少、省了多少？

A：在DL3DV数据集16张输入图像的测试条件下，SplatWeaver使用约45万个气泡，渲染质量PSNR达到20.11分贝，而对比方法AnySplat使用152万个气泡却只达到19.09分贝。也就是说，SplatWeaver用不到三分之一的气泡数量，取得了更高的渲染质量，存储占用仅29.2MB，渲染速度达到每秒301帧。

Q3：SplatWeaver需要提前知道相机位置和角度吗？

A：不需要。SplatWeaver属于"无标定"前馈方法，输入的照片不需要提前知道相机的位置和朝向。系统会自动估计各张照片对应的相机参数，同时完成三维重建。实验显示，其相机位姿估计精度甚至优于专门用于此任务的VGGT模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.