网易首页 > 网易号 > 正文 申请入驻

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

0
分享至



现有的视觉大模型普遍存在「语义-几何鸿沟」(Semantic-to-Geometric Gap),不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「你坐在沙发上时,餐桌在你的哪一侧?」,VLM 常常答错。

这种「语义‑几何鸿沟」源自于视觉大模型的语义空间无法承载高保真的几何细节,导致其在空间推理时是在「凭空瞎猜」,这使得模型读懂了画面的语义,却停留在「语言的世界」中,不具备现实世界赖以运行的几何直觉,导致空间判断漏洞百出。



  • 论文标题:Geometrically-Constrained Agent for Spatial Reasoning
  • 论文链接:https://arxiv.org/pdf/2511.22659
  • 作者团队:Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
  • 通讯单位:北京航空航天大学,上海人工智能实验室
  • 项目主页:https://gca-spatial-reasoning.github.io
  • 项目代码:https://github.com/gca-spatial-reasoning/gca

针对这一痛点,北京航空航天大学上海人工智能实验室的研究团队创新提出了几何约束智能体(Geometrically-Constrained Agent, GCA),开创了「先形式化约束,后确定性计算」的空间推理新范式。GCA 不依赖海量数据微调,而是通过构建形式化任务约束,强制 VLM 从「模糊直觉」转向「精确求解」,通过视觉工具调用和编写计算代码进行参数化计算,为空间推理搭建了一座可验证、确定性的几何桥梁。

GCA 直接带领 Qwen、Gemini 等基座模型实现「能力跃迁」。在公认高难度的 MMSI-Bench 测试中,GCA 将模型性能提升近 50%,击败现有 Training-based 及 Tool-integrated 方法,并在多个主流空间推理测试中确立了空间推理领域的新 SOTA。



核心挑战:跨越「语义 - 几何」的认知鸿沟

视觉语言模型(VLM)在图像描述与通用语义理解上表现卓越,然而,当任务转向需要高精度几何计算的空间推理时 —— 例如判断物体的精确朝向、测量距离或进行视角变换 —— 其表现却显著下滑。

研究团队指出,这种能力断层的根源在于「语义 - 几何鸿沟」。具体表现为:

  • 视觉 & 几何信息的有损压缩:VLM 将丰富的像素信息压缩为抽象的语义特征,这一过程如同将一幅详细地图简化为几个地标名称,导致物体精确位置、朝向、尺度等高保真几何细节大量丢失。
  • 几何想象的缺失:以「坐在沙发上」这一场景为例,VLM 仅能调用模糊的空间常识(知道人与沙发通常同向),却无法在脑海中精确构建出「从沙发视角看去」的三维场景。这种几何想象力的匮乏,使其在面对复杂空间推理时力不从心。

️ 核心方法:基于形式化约束的两阶段推理





1. 任务形式化 —— 从「模糊指令」到「精确规则」

VLM 首先扮演「语义分析师」的角色,利用其强大的语义理解能力,将模糊的自然语言指令转化为明确的数学约束。这一步骤不涉及具体计算,而是确立规则:



  • 基于物体的参考系 (Object-based Frame):利用物体自身的坐标系。例如指令「当你在洗手时...」隐含了观察者必须「面对洗手池」,因此参考系由洗手池的朝向决定。
  • 基于相机的参考系 (Camera-based Frame):即标准的视图坐标系。例如「从图 1 的视角来看...」,此时参考系直接绑定为相机的基于方向的参考系 (Direction-based Frame):由两个物体的位置关系定义。例如「烤箱在水槽的北面」,此时「北」的方向由从水槽指向烤箱的向量严格定义。





2. 几何计算 —— 在规则内进行「确定性求解」



  • 智能工具调度与绑定:VLM 像指挥官一样,调度 3D 重建等感知工具获取数据,并能智能地将「最左边的椅子」等模糊描述,精准绑定到具体的几何对象上,消除语义歧义。
  • 感知与计算的无缝衔接:感知工具负责将视觉世界参数化为高保真 3D 表示,计算工具则负责执行代码、完成坐标转换,二者在统一框架下协同,实现从「看到」到「算准」的闭环。
  • 检索增强的可靠计算:采用类似 RAG 的策略,VLM 从一个已验证的几何公式库中检索正确模型来生成代码,从根本上杜绝「幻觉」,确保每项计算都基于可靠的物理原理。

实验结果:全新的空间推理 SOTA

在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多个主流空间推理基准上,GCA 证明了其有效性,构建了一个全新的空间智能 SOTA。

综合性能提升

GCA 取得了 65.1% 的平均准确率,显著超越了现有基于训练的方法与工具集成的方法。特别是在极具挑战性的多图空间推理基准 MMSI-Bench 中,面对复杂的视角变换与相对方位推断,现有主流模型往往只能徘徊在 25%~30% 左右的「随机猜测」水平线。

而基于 Qwen3-VL-Thinking 构建的 GCA,准确率从 32.6% 跃升至 47.6%。这一数据证明,GCA 成功让 VLM 摆脱了「蒙答案」的困境,向具备可靠的空间推理能力迈出了关键一步。

强大的通用性

GCA 并非特定模型的「专属补丁」,而是一种无需训练(Training-free)的通用推理范式,可直接赋能各类基座模型。

实验显示,在搭载 GCA 架构后,受测模型在 MMSI-Bench 上的性能平均实现了约 37% 的相对提升。其中,基于 Gemini-2.5-Pro 构建的 GCA 表现尤为惊艳,其准确率从 36.9% 飞跃至 55.0%,有效地激发了顶级模型的空间推理潜力。





通过系统的消融实验与归因分析,研究进一步证实了 GCA 架构的前瞻性:



  • 可解释的错误归因:得益于 GCA 架构的模块化设计,研究团队能够对推理链路进行精确的错误归因。分析显示,VLM 在「任务形式化」阶段的准确率已高达~70%,当前主要错误来源于下游感知工具(如 3D 重建失败或遮挡)。这表明,GCA 的推理逻辑是稳健的,其性能将随着感知模型的进步而持续提升。



总结与意义

GCA 提出了一种「语言定义约束,几何执行计算」的新范式。通过将模糊的空间查询转化为带约束的数学问题,GCA 有效避免了 VLM 在有损语义空间中进行不可靠的空间想象。这不仅大幅提升了推理的准确性,也让机器向拥有「几何直觉」迈出了关键一步,回应了攀登「空间智能」高峰的核心挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

蝉吟槐蕊
2026-03-26 13:19:09
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

思如哲思
2026-03-26 06:36:02
好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

互联网.乱侃秀
2026-03-26 10:55:17
演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

小椰的奶奶
2026-03-26 15:15:39
罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

快科技
2026-03-25 09:53:08
特朗普拒绝承认对伊朗打击是战争

特朗普拒绝承认对伊朗打击是战争

界面新闻
2026-03-26 15:51:22
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
这一次,全新腾势Z9GT只为“颠覆”而来

这一次,全新腾势Z9GT只为“颠覆”而来

汽车公社
2026-03-26 08:32:46
全线跳水!刚刚,伊朗发动攻击

全线跳水!刚刚,伊朗发动攻击

中国基金报
2026-03-26 16:15:26
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

看看新闻Knews
2026-03-26 14:21:02
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
2026-03-26 17:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
手机
数码
房产
艺术

家居要闻

傍海而居 静观蝴蝶海

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版