网易首页 > 网易号 > 正文 申请入驻

VEGA-3D:释放视频生成模型中的隐式3D知识,重塑3D场景

0
分享至



研究团队: 本工作由华中科技大学(Huazhong University of Science and Technology)与百度(Baidu Inc.)联合完成。

作者列表:Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai。



  • 论文标题:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
  • 论文链接:https://arxiv.org/abs/2603.19235
  • 仓库链接:https://github.com/H-EmbodVis/VEGA-3D

核心问题:视频生成模型真的理解世界吗?

生成模型,到底能不能理解世界,或者说,它们能否促进对世界的理解?这是我们在推进 Generation Models Know Space 这项研究时,最核心的出发点。

过去在 3D 场景理解这个领域,我们往往习惯于一种思维定势:如果要让模型懂空间,就必须给它显式的 3D 数据,比如点云,或者在系统里硬塞进复杂的几何重建模块。这就导致整个理解链路非常沉重,而且严重受限于高质量的三维标注数据。

但当我们观察这两年飞速发展的视频生成模型时,我们意识到了一个常常被忽视的事实。当一个模型能够自然地生成一段视角切换、包含复杂遮挡关系的视频时,它其实已经在内部默默处理了深度、透视和物理距离。如果它不懂三维几何,生成的画面早就崩塌成了一堆混乱的像素。

所以Motivation变得非常清晰且直接:既然这些在大规模无标注视频上训练出的生成模型,为了造出逼真的画面,已经偷偷掌握了物理世界的空间逻辑,我们为什么还要舍近求远,去重新教理解模型学几何?

这篇论文提出了VEGA-3D,旨在释放深藏于生成大模型内部的 3D 先验知识。研究表明,生成模型不仅是一个高超的“画师”,更像是一个开箱即用的“空间知识库”。它将物理规律与几何结构压缩进参数之中,由生成任务催生出的隐式空间表征,具有很强的迁移能力,并能够直接服务于理解任务。

这不仅是一次技术路线的替换,更是一种研究范式的转变。我们不再将“生成”和“理解”视作彼此平行的两条轨道。尤其在具身智能场景下,当机器人需要在复杂物理空间中完成感知、推理与交互时,模型对三维环境的尺度感、几何直觉和空间一致性的把握,往往正是关键瓶颈。而借助生成模型反哺理解,则为突破这一瓶颈提供了一条极具潜力的新路径。

基于这一思路,来自华中科技大学与百度的联合团队设计了VEGA-3D框架,用于系统挖掘并利用生成模型中的空间先验,从而提升模型在场景理解、空间推理与具身任务中的表现。

它把物理法则压缩在了自己的参数里,这种为了生成而被迫建立的隐式空间表征极其强大,且可以直接迁移到理解任务中。在具体实现上,VEGA-3D将视频生成模型(如 Wan2.1)作为 “潜在世界模拟器”,通过自适应门控机制,将生成模型在中间去噪阶段展现出的纯粹 3D 结构先验,与原有的语义特征进行优雅融合。



Figure 1 摒弃复杂的 3D 依赖和几何监督,VEGA-3D 开创了生成先验增强的新范式。

为什么视频生成模型能懂 3D?因为要生成一段符合常理、时间连贯的视频,生成模型在内部必然学会了物体遮挡、相机运动带来的视差以及交互物理法则。VEGA-3D 的核心创新就在于如何 “榨干” 这股隐式力量:

1. 将视频生成模型作为 “潜在世界模拟器”

摒弃了只用生成模型 “画图” 的常规思路,VEGA-3D 将冻结的视频扩散模型引入视觉流。为了彻底激活其内部的几何结构认知,研究团队通过在其前向过程中注入特定水平的噪声(Noise Injection),提取其在中间去噪阶段和中间网络层(如 DiT layer 20)的时空特征。此时的特征,完美平衡了底层纹理与高层抽象,蕴含着最纯粹的 3D 结构先验。



Figure 2 可视化证明,Wan2.1 在不同视角下展现出惊人的多视角几何一致性。结合 VEGA-3D,大模型的注意力图瞬间精准锁定了目标物体,彻底告别 “空间盲区”。

2. Token 级自适应门控融合

连续的物理生成特征与离散的语义特征天然存在 “语义 - 几何鸿沟”。如果简单粗暴地相加,只会导致信号冲突。 VEGA-3D 独创了自适应门控融合机制:对于每一个空间 Token,网络会动态计算一个权重门控,让模型在回答 “这是什么”(依赖语义先验)和 “它在哪里”(依赖生成空间先验)时,自适应地调节两股特征的比例,实现真正的优势互补。



Figure 3VEGA-3D 极简而优雅的架构设计,即插即用,双流视觉编码。

深度剖析:为什么 “多视角一致性”

是解锁空间认知的密钥?

评价一个模型是否真正理解真实物理世界,关键在于其能否在不同视角下保持几何结构的一致性。为了揭示这一底层逻辑,我们对特征域进行了深入分析。

实验表明,多视角一致性得分与下游 3D 理解任务的归一化综合得分(NOS)呈现出极其显著的正相关。传统的判别式模型在应对 3D 任务时往往会遇到瓶颈:例如 DINOv3-Large 和 V-JEPA v2 的一致性得分分别为 61.90% 和 72.00%。即便是专门针对 3D 提取的判别模型 VGGT,其一致性得分也仅达到 77.21%。这说明传统的降维压缩过程不可逆地丢失了密集的物理与几何细节。

相反,以 Wan2.1 为代表的视频生成大模型展现出了降维打击般的空间理解力。Wan2.1-VACE 和 Wan2.1-T2V 的多视角一致性得分分别飙升至惊人的 97.04% 和 96.88%。这意味着,为了 “不穿帮” 地生成连贯视频,DiT 架构被迫在脑海中构建了极其鲁棒的 3D 物体结构。当 VEGA-3D 将这股强大的隐式先验释放出来时,它为多模态大模型提供了一个坚实的 “空间锚点”,直接驱动了下游性能的暴涨。



Figure 4 多视角一致性得分与下游 3D 理解性能呈强正相关,DiT 架构的生成模型完胜传统判别式模型

实验结果:

依靠这套机制,VEGA-3D 展现出了出色下游任务统治力,并且这一切提升都不需要任何额外的 3D 标注数据:

  • 3D 场景理解全面领先:在 ScanRefer(视觉定位)、ScanQA(空间问答)等 5 个基准测试中,VEGA-3D 将原有基线模型(Video-3D LLM)的定位精度和准确率拉升至全新高度,ScanRefer Acc@0.5 从 51.7 大幅提升至 56.2。
  • 空间推理无死角:在专门诊断模型视觉 - 空间技能的 VSI-Bench 上,引入 VEGA-3D 后的 Qwen2.5VL-7B 在相对距离、相对方向和路线规划等子任务上获得一致性暴涨。
  • 赋能具身智能 (Embodied AI):更硬核的是,在 LIBERO 机器人仿真操作基准中,将生成先验注入到 OpenVLA 视觉流后,机器人在复杂物体交互和长视野(Long-horizon)任务上的成功率突破原有瓶颈,平均成功率达到 97.3%。



Figure 5 3D 场景理解中, ScanRefer 和 ScanQA 数据集等空间定位与问答任务全面领先

总结与展望:探索 3D 推理的下一个前沿

VEGA-3D 不仅仅是一个性能卓越的系统,它更向整个社区传递了一个重要的设计思路:大模型 3D 空间推理的下一个突破口,也许不在于继续堆叠海量且昂贵的 3D 数据,而在于如何释放生成式基础模型体内早已沉睡的 “物理先验”。作为一种高扩展性、数据高效的基础设施,随着未来视频生成模型(如 Sora、Wan 等)的进一步进化,VEGA-3D 的上限将被无限拉高。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员陆毅被网友提醒嘴唇发紫,听劝去体检:检查下来“我是方的”,接下来要科学饮食、锻炼身体了

演员陆毅被网友提醒嘴唇发紫,听劝去体检:检查下来“我是方的”,接下来要科学饮食、锻炼身体了

天津生活通
2026-04-27 11:05:55
英国专家说得对:中国根本不是个国家,是个“穿了马甲的文明”

英国专家说得对:中国根本不是个国家,是个“穿了马甲的文明”

小虎新车推荐员
2026-04-11 05:07:34
1988年,胡因梦在父亲胡赓年葬礼上,一张罕见留影,她是李敖前妻

1988年,胡因梦在父亲胡赓年葬礼上,一张罕见留影,她是李敖前妻

普陀动物世界
2026-04-30 07:26:50
蔡一杰脑癌扩散!59岁频繁回内地农村老家,重温童年时光

蔡一杰脑癌扩散!59岁频繁回内地农村老家,重温童年时光

原梦叁生
2026-04-30 08:10:48
连胜3名中国选手!43岁墨菲回应赵心童出局:斯诺克之神庇佑魔咒

连胜3名中国选手!43岁墨菲回应赵心童出局:斯诺克之神庇佑魔咒

风过乡
2026-04-30 07:15:39
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-21 19:53:18
20年代,林徽因与冰心郊游的唯一合影,这是他们的真实容颜

20年代,林徽因与冰心郊游的唯一合影,这是他们的真实容颜

以茶带书
2026-04-25 19:22:44
3-0梦幻开局到10-13崩盘!赵心童卫冕翻车,这3大短板太致命

3-0梦幻开局到10-13崩盘!赵心童卫冕翻车,这3大短板太致命

桃叶渡春
2026-04-30 08:37:37
悬念不大了!NBA季后赛8强,大概率就是这8支!两大冠军热门淘汰

悬念不大了!NBA季后赛8强,大概率就是这8支!两大冠军热门淘汰

篮球扫地僧
2026-04-30 07:08:57
暗流涌动!穆里尼奥回归皇马倒计时,三大核心球员集体心生抵触

暗流涌动!穆里尼奥回归皇马倒计时,三大核心球员集体心生抵触

奶盖熊本熊
2026-04-30 04:39:28
北京车展:售价718万元,红旗金葵花国礼亮相,竞争劳斯莱斯幻影

北京车展:售价718万元,红旗金葵花国礼亮相,竞争劳斯莱斯幻影

沙雕小琳琳
2026-04-30 01:59:45
中国遭警告:拒收将面临供应中断!

中国遭警告:拒收将面临供应中断!

共工之锚
2026-04-28 23:20:50
缅北电诈分子找到新据点:带水上乐园、人造沙滩的高端楼盘

缅北电诈分子找到新据点:带水上乐园、人造沙滩的高端楼盘

红星新闻
2026-04-29 18:19:15
广东3消息!陈老板发表讲话,徐杰深夜发声,徐昕与少东家握手

广东3消息!陈老板发表讲话,徐杰深夜发声,徐昕与少东家握手

多特体育说
2026-04-29 23:35:23
“更打实力的混合战争”来了

“更打实力的混合战争”来了

中国新闻周刊
2026-04-30 07:32:09
海牙国际刑事法院就杜特尔特案作出终审裁定,莎拉出访多国

海牙国际刑事法院就杜特尔特案作出终审裁定,莎拉出访多国

百科密码
2026-04-29 16:43:50
CBA季后赛太疯狂了!三大强队惨遭逆袭:广东被爆冷辽宁晋级稳了

CBA季后赛太疯狂了!三大强队惨遭逆袭:广东被爆冷辽宁晋级稳了

篮球快餐车
2026-04-30 05:25:06
遇刺两天后,特朗普还是发飙了,22人全被开除,美议员要弹劾总统

遇刺两天后,特朗普还是发飙了,22人全被开除,美议员要弹劾总统

混沌录
2026-04-29 23:40:13
和少妇这顿饭,吃得圆滚滚,眼睛也看得心满意足

和少妇这顿饭,吃得圆滚滚,眼睛也看得心满意足

飛娱日记
2026-04-28 07:50:45
移民局最新政策:所有在审庇护、绿卡和公民全部重新背景调查

移民局最新政策:所有在审庇护、绿卡和公民全部重新背景调查

大洛杉矶LA
2026-04-30 06:33:27
2026-04-30 09:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12891文章数 142640关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

牛弹琴:特朗普自以为找到妙计对伊放话 伊朗估计气懵了

头条要闻

牛弹琴:特朗普自以为找到妙计对伊放话 伊朗估计气懵了

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

一场20年级别的供应危机,在眼前了!

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

教育
时尚
亲子
手机
房产

教育要闻

五年级数学:已知三角形面积是20、30和35,求阴影面积

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

亲子要闻

春季感冒发烧的孩子特别多,家长困扰

手机要闻

消息称苹果iOS 27版相机新增Siri模式,AI记录食品标签等

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

无障碍浏览 进入关怀版