网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 几何智能研究盘点:从看见形状,到理解运动与交互

0
分享至


可动结构、4D 表征与高效重建登场。

作者丨郑佳美

编辑丨马晓宁

2026 年 6 月 1 日,国际机器人与自动化会议(ICRA)在奥地利维也纳召开。次日上午的自动驾驶与导航报告环节,雷峰网GAIR 2021大会嘉宾、上海交通大学教授王贺升发表了题为《Learning to Navigate: From Scene Understanding to Decision Makin》的演讲。

3D 视觉研究正在从“重建形状”走向“理解空间”。过去,一个模型只要能生成外观合理的三维物体,就已经足够令人关注。

但现在,真正重要的问题正在变得更复杂:模型能否判断一个物体内部哪些部件可以运动,能否理解动态物体在时间中的几何和外观变化,能否在多视角重建中兼顾精度与效率,甚至能否读懂复杂的 3D 几何论文并写出可复现的研究代码。

这种转变也体现在 CVPR 2026 相关研究所关注的问题上。研究者不再只满足于让 AI 生成一个静态 3D 模型,而是希望它进一步理解物体的结构、运动方式、时空表示和计算过程。

一个抽屉不只是一个长方体,而是应该知道它可以沿轨道滑动;一个动态物体不只是连续的几帧形状,而是需要被统一表示和长期追踪;一个 3D 基础模型也不只是越大越好,还必须在实际场景中高效、稳定地运行。

更深层来看,3D AI正在从单点能力走向系统能力。它不仅要回答“物体长什么样”,还要回答“它怎么动”、“如何被重建”、“如何高效运行”、“如何被研究者复现和扩展”。当这些能力逐渐连在一起,3D 模型才更接近真正可用的空间智能系统,也更接近机器人、仿真、数字孪生和生成式 3D 内容所需要的核心基础。


01


从可动结构到 4D 动态表示

《PARTICULATE: Feed-Forward 3D Object Articulation》关注的是 3D 物体自动关节化问题,相关研究来自牛津大学、剑桥大学和南洋理工大学。

论文主要研究如何从一个静态 3D 网格中,自动推断出物体的可动结构,包括物体由哪些可动部件组成、这些部件之间如何连接,以及它们分别沿着什么方向旋转或滑动。

这项任务的意义在于,很多现实物体并不只是“有形状”,还具有可运动的结构。比如柜门可以旋转打开,抽屉可以沿轨道滑动,水龙头、椅子、行李箱等物体也都有不同形式的可动部件。

对于机器人操作、物理仿真、游戏资产和数字孪生来说,仅有一个静态 3D 模型是不够的,还需要知道这个物体“哪里能动、怎么动、动多少”。

以往的方法往往依赖规则建模、部件检索,或者针对单个物体进行优化,推理速度慢,也很难覆盖真实世界中种类丰富的物体。


论文地址:https://arxiv.org/pdf/2512.11798

针对这一问题,论文提出了 PARTICULATE 框架,它可以在一次前向推理中,从输入的 3D mesh 直接预测完整的关节结构,并在数秒内生成一个可用于物理引擎的可动 3D 模型。

方法上,论文设计了 Part Articulation Transformer,也就是 PAT。它会先从输入 mesh 中采样点云,并结合表面法向量和 PartField 提取的 3D 语义部件特征,然后通过 Transformer 结构和多个解码头,同时预测部件分割、运动学树、关节类型、运动轴和运动范围。也就是说,模型不仅要把物体切分成不同部件,还要判断这些部件之间的父子关系,以及每个部件是旋转、平移,还是固定不动。

论文还构建了一个新的 3D 关节估计评测基准,包含 243 个高质量 3D 资产,并重新设计了更符合人类偏好的评估方式。实验中,PARTICULATE 在静态 3D mesh 的可动结构恢复任务上明显优于已有方法,并且能够泛化到未见过的物体,甚至可以处理 AI 生成的 3D 资产。雷峰网

这篇论文的亮点在于,它把 3D 模型从“静态形状”进一步推向“可交互对象”。过去,一个 3D 生成模型可能只能生成一个外观合理的物体,而 PARTICULATE 试图进一步让模型理解物体内部的可动结构。

它不仅能告诉模型“这个物体长什么样”,还能让模型知道“这个物体应该怎么动”。这对于机器人操作、仿真环境、游戏制作和 AI 生成 3D 内容都有很强的实用价值。


如果说 PARTICULATE 更关注静态 3D 物体内部的“可动结构”,那么《Velox: Learning Representations of 4D Geometry and Appearance》则进一步把视角扩展到时间维度,研究物体在运动过程中的几何和外观变化。相关研究来自苹果公司和多伦多大学,论文关注的是 4D 动态物体表示学习问题。

论文主要研究如何为随时间变化的 3D 物体学习一种紧凑、通用的表示,使模型能够同时捕捉物体的几何结构、外观信息和时间变化。这里的 4D 可以理解为“三维空间加时间”,也就是不仅要知道物体长什么样,还要知道它如何运动。

以往的 3D 或 4D 表示方法往往只服务于单一任务,或者需要提前知道不同时间点之间的点对应关系,因此泛化能力有限。针对这一问题,论文提出了 Velox 框架,将输入的时空彩色点云压缩成一组 dynamic tokens,用这些紧凑表示来概括整个动态物体。论文中提到,这种方式可以实现超过 30 倍的压缩,并且不需要把时间对应关系作为输入。


论文地址:https://arxiv.org/pdf/2605.04527

方法上,Velox 使用类似 Perceiver IO 的编码器,从无结构动态点云中提取时空信息,再通过两个解码器分别建模几何和外观。

其中 4D surface decoder 负责恢复随时间变化的物体表面,Gaussian decoder 则将 dynamic tokens 映射成 3D Gaussians,用于恢复外观细节。也就是说,Velox 不是逐帧处理 3D 物体,而是学习一个贯穿时间的统一动态表示。

论文将这种表示应用到 video-to-4D 生成、3D 跟踪和布料仿真等任务中。实验结果显示,Velox 在动态物体重建、新视角生成和 3D 跟踪等方面表现较好,能够把时间、运动、几何和外观统一到一个紧凑表示中。

这篇论文的亮点在于,它把 3D 生成从“静态形状”推进到“动态世界建模”。Velox 不只是重建一个会动的物体,而是学习一种可以复用的 4D 表示,让模型更好地理解物体在时间中的运动和变化。这对于 4D 生成、动态数字资产、机器人感知和仿真任务都有重要意义。


在 3D 和 4D 模型能力不断增强的同时,推理效率也成为实际应用中绕不开的问题。《HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT》关注的正是 VGGT 模型的高效推理,相关研究来自首尔大学。论文主要研究如何在多视角 3D 重建中降低 VGGT 全局注意力层的计算开销,同时尽量避免精度下降。

VGGT 依靠全局注意力来理解多张图像之间的几何关系,但注意力计算成本会随着输入视图数量增加而快速上升,这限制了它在大规模或实时 3D 重建场景中的应用。

以往的稀疏化方法通常会对所有注意力头使用相同的稀疏策略,也就是统一减少注意力计算。但论文指出,不同注意力头对稀疏化的敏感程度并不一样。有些头对相机位姿、点云结构等几何信息非常关键,如果被过度稀疏化,模型性能会明显下降;而有些头相对不敏感,可以承受更高程度的稀疏。


论文地址:https://arxiv.org/pdf/2603.25336v1

针对这一问题,论文提出了 HeSS,也就是 Head Sensitivity Score,用来衡量每个注意力头对稀疏化的敏感程度。它通过一个小规模校准集,结合相机位姿误差和点云误差两个指标,近似估计每个注意力头的重要性。这样模型就可以知道哪些头需要保留更密集的注意力计算,哪些头可以进一步稀疏化。

方法上,论文采用两阶段流程。第一阶段是离线校准,计算每个注意力头的 HeSS 分数;第二阶段是在推理时根据这些分数重新分配注意力预算。也就是说,总计算量不一定增加,但会把更多预算分给敏感头,把更少预算分给不敏感头,从而在保持加速效果的同时减少重建质量损失。

这篇论文的亮点在于,它不是简单地“统一压缩”模型,而是根据不同注意力头的重要性进行更精细的稀疏化分配。实验结果显示,HeSS 能够有效捕捉全局注意力层中不同头的敏感差异,在高稀疏率下比 SparseVGGT 更好地保持相机位姿估计和点云重建质量,并且可以推广到其他基于 VGGT 的结构中。

总体来看,这篇论文的核心贡献是让 VGGT 这类 3D 视觉基础模型在保持几何精度的同时变得更高效。它说明模型加速不能只看计算量,还要理解模型内部不同模块对任务结果的影响。对于多视角 3D 重建、实时空间感知和大规模 3D 场景建模来说,这类“精度友好型加速”方法具有较强的实用价值。


当 3D 视觉模型越来越复杂,另一个问题也随之出现:大语言模型能不能真正帮助研究者理解并实现这些几何算法。

《Benchmarking PhD-Level Coding in 3D Geometric Computer Vision》关注的是 3D 几何视觉中的高难度代码生成评测问题,相关研究来自清华大学人工智能产业研究院、清华大学求真书院、北京智源人工智能研究院、北京大学、南京大学和多伦多大学。

论文主要研究的是:当大语言模型读到一篇 3D 视觉论文和相关代码框架时,能否真正理解其中的几何算法,并写出可以运行、可以通过单元测试的研究级代码。

这项工作的背景在于,AI 辅助编程已经在通用软件开发中表现较强,但 3D 几何视觉代码并不只是普通编程。它往往涉及坐标变换、相机投影、点云处理、物理或光学公式、渲染逻辑以及多视角几何关系。

如果模型只是“会写代码”,但不能准确理解论文中的数学定义和几何约束,就很容易写出看似合理、实际错误的实现。为了解决缺少专业评测的问题,论文提出了 GeoCodeBench,这是一个面向 3D 几何视觉的博士级代码生成基准。雷峰网

每个任务都来自真实 3D 视觉论文及其官方代码仓库,形式是给模型论文内容和一个被挖空的函数,让模型补全核心实现,再通过单元测试判断代码是否正确。这个设定更接近真实科研场景:模型不仅要读懂论文,还要把方法转化成可执行代码。


论文地址:https://arxiv.org/pdf/2603.30038v1

在数据构建上,GeoCodeBench 从 CVPR 2025、ICCV 2025 和 ICLR 2025 的 47 个代码仓库中筛选出 100 个高质量问题,覆盖 Gaussian Splatting、姿态估计、SLAM、重建、NeRF、物理建模和 3D 分割等方向。

任务被分为两大能力:一类是通用 3D 能力,包括几何变换和力学 / 光学公式实现;另一类是科研能力,包括新算法实现和几何逻辑组合。

论文还设计了自动化评测流程。系统会解析论文内容、提取代码函数、生成被挖空的实现模板,并为每个问题构建覆盖普通情况和边界情况的单元测试。模型生成代码后,直接在测试环境中运行,用通过率衡量结果。这种方式比只看自然语言回答更严格,因为代码必须真正执行正确,才能算通过。

实验结果显示,当前大模型在这类任务上仍有明显差距。论文评测了 8 个开源和闭源模型,其中表现最好的 GPT-5 总通过率也只有 36.6%。结果还显示,模型在基础几何和数学公式类任务上相对更好,但在论文特定的新算法实现和几何逻辑组合上明显更弱,说明它们距离可靠完成 3D 科研级编程还有很大空间。

这篇论文的亮点在于,它把大模型代码能力评测从通用编程推进到了更接近科研现场的 3D 几何视觉场景。

GeoCodeBench 不只是考模型会不会写 Python,而是考它能不能读懂论文、理解几何关系、实现核心算法并通过可复现测试。总体来看,这项工作为评估和推动“自动化 3D 视觉研究助手”提供了一个更严格、更真实的测试平台。



02


去哪看 CVPR 核心【演讲/论文】详解?

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面上线【CVPR 2026 深度专区】。

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。

与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊了!坐飞机,发现了一名超像豆包的空姐

震惊了!坐飞机,发现了一名超像豆包的空姐

微微热评
2026-06-25 12:35:51
几百万的网红视频全是拍女儿擦边球的视频

几百万的网红视频全是拍女儿擦边球的视频

西楼知趣杂谈
2026-06-20 21:16:24
受权发布|全国人民代表大会常务委员会决定免职的名单

受权发布|全国人民代表大会常务委员会决定免职的名单

新华社
2026-06-26 23:10:05
成都主帅:感谢成都球迷的支持,韦世豪展现了领导力

成都主帅:感谢成都球迷的支持,韦世豪展现了领导力

仰卧撑FTUer
2026-06-27 23:06:18
《乘风2026》总决赛惹众怒,网友:这票数在羞辱谁?

《乘风2026》总决赛惹众怒,网友:这票数在羞辱谁?

毒舌八卦
2026-06-27 22:41:31
刚结婚就离婚?这次老夫少妻的残酷,在尹子维身上展现的淋漓尽致

刚结婚就离婚?这次老夫少妻的残酷,在尹子维身上展现的淋漓尽致

娱说瑜悦
2026-06-25 19:02:52
女子因钾过低心脏骤停,医生:平时宁愿少吃点肉,也要多吃这5物

女子因钾过低心脏骤停,医生:平时宁愿少吃点肉,也要多吃这5物

芹姐说生活
2026-06-10 14:57:32
北京发布雷电黄警!今夜要下雨,预计持续时间——

北京发布雷电黄警!今夜要下雨,预计持续时间——

BRTV新闻
2026-06-27 16:20:03
无语 | 进球被吹,主帅染红,津门虎招谁惹谁了?

无语 | 进球被吹,主帅染红,津门虎招谁惹谁了?

天津广播
2026-06-27 22:45:41
1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

趣文说娱
2026-05-29 20:13:52
不是李春江!也不是郭士强!广东新主帅人选曝光,保底总决赛了!

不是李春江!也不是郭士强!广东新主帅人选曝光,保底总决赛了!

绯雨儿
2026-06-27 10:58:19
民进党,极有可能在下届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下届台湾地区选举后,成为长期一家独大政党

离离言几许
2026-06-27 15:45:51
每个月要交公粮28次,丈夫受不了,妻子却说:每月2次都无法满足

每个月要交公粮28次,丈夫受不了,妻子却说:每月2次都无法满足

胖胖侃咖
2025-04-03 08:00:11
一个大大减轻久坐伤害的动作

一个大大减轻久坐伤害的动作

大象新闻
2026-06-27 10:46:02
20.99万-32.99万元,启境GT7上市24小时大定突破5200台

20.99万-32.99万元,启境GT7上市24小时大定突破5200台

IT之家
2026-06-27 22:56:04
广州白云机场T3,是最美还是最坑?

广州白云机场T3,是最美还是最坑?

环球旅讯
2026-06-27 18:35:23
三星Galaxy S27系列现身:四剑齐发 全系标配2nm芯片

三星Galaxy S27系列现身:四剑齐发 全系标配2nm芯片

快科技
2026-06-27 23:06:37
1050匹!法拉利官宣:纯电车正式发布

1050匹!法拉利官宣:纯电车正式发布

高科技爱好者
2026-06-27 23:00:22
安徽入室抢劫案,母亲被嫌疑人蹂躏三小时,死前哀求他别吵醒女儿

安徽入室抢劫案,母亲被嫌疑人蹂躏三小时,死前哀求他别吵醒女儿

历史品鉴仓
2026-06-11 17:19:50
让陈冲甘愿净身出户离婚后,他定居美国,如今73岁无儿女孤独终老

让陈冲甘愿净身出户离婚后,他定居美国,如今73岁无儿女孤独终老

胡一舸南游y
2026-06-26 14:41:02
2026-06-27 23:40:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69885文章数 656150关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

打击中东美军多个目标后 伊朗最高领袖军事顾问表态

头条要闻

打击中东美军多个目标后 伊朗最高领袖军事顾问表态

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

本地
教育
家居
时尚
公开课

本地新闻

世界杯球迷节:比球赛更好玩的派对

教育要闻

太求稳了!高考678分考生要放弃C9保专业,西安交大也不愿意选

家居要闻

绿意盎然 自然之境

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版