网易首页 > 网易号 > 正文 申请入驻

Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

0
分享至



蔡志鹏博士(https://zhipengcai.github.io/)是美国 Meta 公司的高级研究员,博士毕业于澳大利亚阿德莱德大学。他的研究主要集中在 Physical Intelligence,包括三维视觉、多模态大模型等。他的工作已在领域顶级会议杂志上发表超过 20 篇。其中 10 篇文章被选为顶级会议口头或特邀报告,对鲁棒估计计算复杂度的理论证明工作被选为 ECCV18 12 篇最佳论文之一。

Meta 发布了一项令人震撼的研究工作 VLM³,首次揭示了三维视觉学习的 Bitter Lesson:标准的视觉语言模型 + scale 数据就是最简单有效的范式,针对特定任务的架构、损失函数以及数据增强的设计,甚至是 regression 的 formulation,均不是三维视觉学习的必要条件。



当前的视觉语言 AI 模型(Vision Language Models, VLMs)通过统一的模型架构能够灵活处理各类不同的视觉任务。然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在三维视觉方面仍然表现不佳。相比之下,专家视觉模型(expert vision models)在绝对深度估计(metric depth estimation)等三维理解任务上,凭借专门设计的网络结构、损失函数及数据增强,已经达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否在三维视觉学习方面无法替代专家模型?」VLM³ 首次证明了该问题的答案是否定的!

VLM³ 通过极简的设计,在极为多样的三维视觉任务中媲美或超越专家视觉模型,并大幅超越最先进的视觉语言模型:1)在单目深度估计上 match UnidepthV2 及 MoGe2;2)在目标级三维理解任务上超越 SpatialRGPT;3)在像素匹配任务上超越 DKM 和 RoMa;4)在相机姿态估计上 match DA3,超越 VGGT。



  • 论文地址:https://arxiv.org/pdf/2605.30561
  • 代码地址:https://github.com/facebookresearch/VLM3

二、亮点

在此之前,即便是最先进的 VLM 在标准的三维视觉任务中均远远落后于专家视觉模型。

VLM³ 通过详尽的实验发现,标准的 VLM 仅需要 1)相机焦距归一化;2)像素空间归一化,就能够以令人惊叹的简洁方式有效学会各类三维视觉模型,在 1)单目深度估计中 match UniDepthV2 及 MoGe2;2)在目标级别三维理解超越 SpatialRGPT;3)在像素匹配任务上超越 DKM 和 RoMa;4)在相机姿态估计上 match DA3 并超越 VGGT。



和之前的三维视觉 VLM 不同,VLM³ 既不需要改变 VLM 的架构,也不需要在图片上渲染 marker。相比于专家视觉模型需要大量的架构、损失函数及数据增强方面的复杂设计,VLM³ 仅需要标准的 VLM 架构(如 Qwen3-vl-4B)和训练(基于文字的 SFT)就能够在极为多样的三维任务上达到 SOTA。

这种简洁的训练推翻了之前三维视觉的学习范式,并揭示了三维视觉的 Bitter Lesson:我们其实完全不需要针对特定三维视觉任务人为设计复杂的架构、损失函数及数据增强。通过简单的视觉语言建模 + scale 数据就能够达到同样的效果,并且于其他非三维视觉任务在统一的语言模型训练框架下完全兼容。这使得三维视觉不再需要与视觉语言模型的大规模预训练分离,同时我们能够使用同样的方式来实现三维视觉的 scaling law。

同时 VLM³ 的成功也意味着三维视觉的学习远比我们想象中的要容易:除开不需要特殊架构、损失函数等,我们甚至可以不依赖回归(regression)来学会 fine-grained 3D understanding,这在之前的工作中是难以想象的,因为在连续的输出空间进行回归是绝大多数三维视觉模型的核心设计。

三、主要结果 / 性能对比

在四大三维视觉任务上性能显著优于最先进的 VLM

在单目深度估计上将 DepthLM 的准确率从 84 提升至 90,并且训练及推理更加简单高效,无需渲染 marker。

在目标级别三维理解上用同样的训练数据超越 SpatialRGPT,并且无需额外的 encoder,模型参数少一半(4B vs 8B)。

在多视角几何任务上如像素匹配及相机姿态估计上远超 Qwen3-vl-32B。



同时在与先进的专家视觉模型(如 MoGe2、DA3、RoMa 等)的对比中,VLM³ 也毫不逊色,并且完全不需要复杂的架构、损失函数及数据增强。





四、意义 / 应用前景

VLM³ 重新定义了三维视觉的最佳学习范式:最简单的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式!过去三维视觉领域普遍采用的人为的 task-specific 的设计并非必须。

这将极大程度地简化三维基础模型的构建。通过将三维视觉任务融入视觉语言模型的预训练,我们也能有效地兼容三维视觉与其它视觉任务,并将 VLM 的优势,及灵活性与泛化性从语义及二维视觉任务有效拓展至三维视觉,极大程度提升模型的能力上限。

结语

VLM³ 的出现,首次打通了视觉语言模型与三维视觉之间的壁垒,使得统一的架构就能够简洁地学会各类视觉任务,并达到专家模型的性能。这既是科研层面的里程碑,也为未来在实际系统中统一多模态推理能力提供了可能。我们期待 VLM³ 后续在机器人、自动驾驶、增强现实等场景中的落地应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大规模清仓!北京本土家居品牌闭店倒计时

大规模清仓!北京本土家居品牌闭店倒计时

中国商报
2026-06-12 19:44:05
确认!巴塞罗那启动对弗洛伦蒂诺法律行动

确认!巴塞罗那启动对弗洛伦蒂诺法律行动

日常碎碎念啊
2026-06-13 00:18:42
杰拉德曝伊斯坦布尔奇迹更衣室真相

杰拉德曝伊斯坦布尔奇迹更衣室真相

体坛周报
2026-06-12 21:13:42
网传南通“桥掉下来了”消息不实 当地通报:系装载混凝土预制箱梁的半挂车发生事故

网传南通“桥掉下来了”消息不实 当地通报:系装载混凝土预制箱梁的半挂车发生事故

红星新闻
2026-06-12 20:42:09
辞职也难逃追责!西安女教师配合外籍博主博流量,师德底线失守

辞职也难逃追责!西安女教师配合外籍博主博流量,师德底线失守

放开他让wo来
2026-06-12 10:48:34
告诉你一个残酷的真相:父母存的钱,存的其实是孩子的选择权

告诉你一个残酷的真相:父母存的钱,存的其实是孩子的选择权

大熊欢乐坊
2026-06-01 06:24:25
曝格林愿降薪让步助勇士追詹姆斯

曝格林愿降薪让步助勇士追詹姆斯

体坛周报
2026-06-13 03:26:12
忠心员工捐髓救老板一命,老板康复后却将她辞退,报应来得快

忠心员工捐髓救老板一命,老板康复后却将她辞退,报应来得快

悬案解密档案
2025-05-14 14:16:08
28岁巅峰退出国家队?赵继伟克星宣布退役:男篮反倒成最大受益者

28岁巅峰退出国家队?赵继伟克星宣布退役:男篮反倒成最大受益者

篮球快餐车
2026-06-12 05:36:36
世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

平流层散步者
2026-05-27 08:04:47
宝马也要出“大G”?宝马全新硬派越野车假想图曝光,对标奔驰G级

宝马也要出“大G”?宝马全新硬派越野车假想图曝光,对标奔驰G级

小怪吃美食
2026-06-13 02:55:54
外资控制蒙古铜矿,340万人沦为性旅游后花园

外资控制蒙古铜矿,340万人沦为性旅游后花园

清欢百味
2026-06-11 18:45:10
“几十年的血没清洗过,您觉得干净吗?”

“几十年的血没清洗过,您觉得干净吗?”

中国新闻周刊
2026-06-11 07:22:08
高考719分夺得全省第一,如今在清华王牌专业读大一,成功靠2个字

高考719分夺得全省第一,如今在清华王牌专业读大一,成功靠2个字

星娱叨叨社
2026-06-09 14:55:26
值得珍藏:AI产业链+光存电芯+玻璃基板+贵金属+光通信+能源龙头

值得珍藏:AI产业链+光存电芯+玻璃基板+贵金属+光通信+能源龙头

粤语音乐喷泉
2026-06-11 18:32:26
否决金球先生?皇马36小时闪签B席,一场静默的战术革命!

否决金球先生?皇马36小时闪签B席,一场静默的战术革命!

落夜足球
2026-06-12 13:49:58
我们等了55年的一句话,终于正式公开了!

我们等了55年的一句话,终于正式公开了!

起喜电影
2026-06-08 10:49:23
老领导落马前塞给我一个蓝布包,叮嘱我辞职回乡躲五年才安全

老领导落马前塞给我一个蓝布包,叮嘱我辞职回乡躲五年才安全

晓艾故事汇
2025-12-12 08:10:43
赖昌星的“红楼”有多厉害?官员坦白:享受全套服务,没人能把持

赖昌星的“红楼”有多厉害?官员坦白:享受全套服务,没人能把持

流史岁月
2026-06-12 11:04:38
646亿财务造假终被抓,儿子投资来源不明,实业报国六年骗局

646亿财务造假终被抓,儿子投资来源不明,实业报国六年骗局

玲儿爱唱歌
2026-05-07 05:07:45
2026-06-13 04:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13246文章数 142668关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

健康
教育
艺术
手机
亲子

老人、小孩、孕妇,吃粽子有啥风险

教育要闻

家长成了“疯女人”,被女儿作业搞崩溃,网友:太真实

艺术要闻

砸了640亿,再赔160亿!沙特“The Line”项目彻底凉了?

手机要闻

vivo X Fold6再预热:天玑9500超能版+OriginOS 6 Fold

亲子要闻

给孩子报个幼儿园还要工资流水?难道这就是传说中的“因财施教”

无障碍浏览 进入关怀版