网易首页 > 网易号 > 正文 申请入驻

别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

0
分享至

来源:市场资讯

(来源:机器之心)


2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。

然而,这背后存在着隐忧:由于带有准确 3D 标注数据的稀缺,模型训练所用数据(如 ScanNet++、ARKitScenes)往往与测试基准高度同源。这种数据的 “近亲繁殖” 让我们不得不担忧:近期模型分数的飙升,究竟是真正习得了空间几何推理能力,还是仅仅因为 “看多了” 类似的室内数据分布,从而学会了 “背答案”?

为了回答这个问题,中国科学院大学机器学习与感知实验室联合微软亚洲研究院以及苏黎世联邦理工大学共同发布了全新空间智能基准 OSI-Bench,从数据源头出发,基于自采开放世界中带有准确 3D 标注的视频数据,提供了对空间智能真正诊断的能力。由此出发,该工作重新审视了当前大模型的空间能力是否得到了发展。真正的空间智能鸿沟,或许无法在现有数据范式下仅靠简单的微调来填平。


  • 论文标题:From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs

  • 作者:Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang

  • 论文地址:https://arxiv.org/abs/2512.19683

  • 项目主页:https://mingrui-wu.github.io/osi-bench

室内场景的局限

近年来,空间智能的研究大多聚焦于室内场景。这很大程度上受限于源数据集的匮乏 —— 少数可用的室外数据集往往基于自动驾驶视角,与第一人称的行人视角存在本质差异。

这种对室内数据的过度依赖,不仅导致了训练集与测试集的高度同源,更因室内场景过强的语义先验难以公平评估模型的空间感知和推理能力。


当我们在室内场景提问时(例如:“浴缸和马桶之间相距多远?”),模型往往能基于 “典型浴室布局” 的先验知识做出合理推测。即便关闭视觉输入,模型也能仅从语言信息 “盲猜” 对部分此类问题。

OSI-Bench 选择的室外开放世界的一个核心优势在于其复杂性与随机性。在这种环境下,语义先验变得微弱。面对 “告示牌和遮阳篷之间的距离是多远” 这样的问题,模型无法再仅凭语义关联获得正确答案,被迫回归到真正的视觉空间推理上来。这种对先验知识与视觉空间智能的解耦,使得 OSI-Bench 可以评估模型的真实空间能力。

从数据到问答

OSI-Bench 摒弃了从现有数据集二次提取的路径,完全基于由多传感器平台(双目相机、LiDAR、IMU/GPS)采集的原始视频流。这些数据自带精确的 3D 信息,覆盖了公园、步行街、古建筑、校园等丰富多样的开放世界场景。


我们的 Human-in-the-loop 流程从 20 小时的视频素材中生成约 9000 条高质量问答,涵盖 9 种任务。为了系统性评估模型能力,我们将这些任务划分为空间智能的三个层级:

1. 相对关系 :针对空间位置的定性判断

2. 静态尺度 :针对静态空间物理量的定量估算

3. 动态尺度 :引入时间维度的动态物理量估计

评测结果:我们离空间智能还有多遥远?

在 OSI-Bench 上的评测结果表明,当下的开源与闭源 SOTA 多模态大语言模型普遍在这些任务上失败了。


尽管 Gemini-2.5-Pro 在一众模型中取得了相对显著的优势,但整体表现仍远低于人类水平。然而,比低分更令人担忧的是,我们目前看到的所谓 “空间智能提升”,可能只是一场虚假的繁荣。


我们为此研究了在 2025 年发布新版本并报告在 VSI-Bench(室内基准)上取得巨大提升的两个模型家族:Qwen-VL 与 InternVL 系列。

这两个系列在加入更多空间数据训练后,其同尺寸新旧版本在 VSI-Bench 上的得分显著上升了约 24.1 分,性能几乎翻倍。然而,这种惊人的增长并未出现在同样考察空间推理的 OSI-Bench 上。

另外,结果显示,在绝对距离任务上,更新后的各尺寸模型在 VSI-Bench 上一致涨点,却在 OSI-Bench 上一致退步。由于两个基准在这一任务上采用的提问模版完全相同(仅场景不同),这提供了直接的证据:模型在室内基准上的分数提升,本质上是对特定场景分布的过拟合,而非真正习得了可泛化的空间智能。

我们正在经历的这场 “空间智能刷点狂潮”,或许只是空中楼阁。

语言先验:模型的捷径

当面对空间任务时,相比于费力地进行视觉几何推理,模型更倾向于走 “捷径”—— 利用语言先验知识,基于平均值进行猜测。


为了量化这一现象,我们设计了两组实验。

盲测实验结果显示,模型在有 / 无视觉输入的情况下的得分差距极小,视觉输入并没有被有效地在推理中使用。


我们构建了一组包含 “正常场景” 与 “反常场景”(物体尺寸被特意调整至违背常理)的合成数据。人类在面对反常场景时,空间判断力并未受太大影响;而模型在语言先验失效、常理不再适用的情况下,性能出现了断崖式下跌。


总结与展望

OSI-Bench 暴露了现有大模型在空间智能层面与实际应用需求之间的巨大鸿沟,更让我们对当前模型是否真正具备可泛化的空间能力提出了质疑。

我们呼唤一种全新的空间智能范式,相较于 data-driven 的分布拟合,我们需要真正赋予模型在空间中感知、在空间中思考的工具与能力。

OSI-Bench 的基准与评测代码已全部开源。未来,我们将持续开源更多带有高精度 3D 信息的开放世界视频数据,推动空间智能从室内场景走向复杂的开放世界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同学会班长让我坐司机桌,结账时我叫来经理:这桌免单,其余AA

同学会班长让我坐司机桌,结账时我叫来经理:这桌免单,其余AA

晓艾故事汇
2026-01-12 08:02:24
12战10胜!快船一口气获4大喜讯:哈登32+10迎里程碑+泰伦卢开窍

12战10胜!快船一口气获4大喜讯:哈登32+10迎里程碑+泰伦卢开窍

锅子篮球
2026-01-13 16:59:39
曝湖人也盯上库明加!美媒3换1交易方案:两人+首轮互换权成筹码

曝湖人也盯上库明加!美媒3换1交易方案:两人+首轮互换权成筹码

罗说NBA
2026-01-13 06:35:39
终究还是离婚了!这样的结果已经算体面了吧!

终究还是离婚了!这样的结果已经算体面了吧!

民间平哥
2026-01-13 16:59:23
善恶到头终有报?57岁央视女主持王小丫,已走上另一条大路

善恶到头终有报?57岁央视女主持王小丫,已走上另一条大路

妙知
2026-01-13 11:55:41
中国U23队最后一轮对手泰国U23,引发东南亚球迷热议:失望、争议

中国U23队最后一轮对手泰国U23,引发东南亚球迷热议:失望、争议

星耀国际足坛
2026-01-12 19:57:05
策略:明天1月14日的预判出来了,全面减仓之前,我要说两句!

策略:明天1月14日的预判出来了,全面减仓之前,我要说两句!

一担金
2026-01-13 13:15:14
22分5板7助1断,37岁威少还在进化!连斩火箭湖人后发声耐人寻味

22分5板7助1断,37岁威少还在进化!连斩火箭湖人后发声耐人寻味

锅子篮球
2026-01-13 17:03:15
今年三九天太反常!老话“三九连日晴”,啥预兆?答案来了

今年三九天太反常!老话“三九连日晴”,啥预兆?答案来了

刘哥谈体育
2026-01-13 11:45:52
赖清德儿子躲在美国,大陆已发26道通牒,洪秀柱:统一指日可待

赖清德儿子躲在美国,大陆已发26道通牒,洪秀柱:统一指日可待

博览历史
2026-01-12 14:35:01
戴笠霸占胡蝶3年?胡蝶晚年坦言:戴笠对我很好,我不会忘记他的

戴笠霸占胡蝶3年?胡蝶晚年坦言:戴笠对我很好,我不会忘记他的

雍亲王府
2026-01-12 16:30:03
“风流才女”徐静蕾,住美国豪宅,身材发福,51岁有伴侣但不结婚

“风流才女”徐静蕾,住美国豪宅,身材发福,51岁有伴侣但不结婚

丰谭笔录
2025-12-18 11:09:01
一位老人感叹:人没必要活得太长寿。60岁走,太年轻;70岁走,有点早;80岁去世,刚好合适。

一位老人感叹:人没必要活得太长寿。60岁走,太年轻;70岁走,有点早;80岁去世,刚好合适。

二胡的岁月如歌
2026-01-12 18:27:06
高市早苗终于憋不住了,对着镜头质问中国:凭什么只针对日本?

高市早苗终于憋不住了,对着镜头质问中国:凭什么只针对日本?

安安说
2026-01-12 14:21:45
俄军在马背上安装“星链”

俄军在马背上安装“星链”

参考消息
2026-01-13 14:38:05
农村姑娘家宰2头年猪,网上摇人按猪,没想到赶来数千人吃了5头猪

农村姑娘家宰2头年猪,网上摇人按猪,没想到赶来数千人吃了5头猪

观世记
2026-01-12 16:56:31
才播5集,收视率全国第一!央视这部年代剧,又是2026年度黑马

才播5集,收视率全国第一!央视这部年代剧,又是2026年度黑马

小老头奇闻
2026-01-13 16:21:50
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-01-12 13:00:07
特朗普高调访华安排陷入全面尴尬

特朗普高调访华安排陷入全面尴尬

达文西看世界
2026-01-09 14:10:08
山东某医疗机构贴告示称“放弃低端患者”,当地卫健局已介入

山东某医疗机构贴告示称“放弃低端患者”,当地卫健局已介入

大象新闻
2026-01-12 17:57:05
2026-01-13 17:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2007601文章数 5233关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

白宫称正考虑针对伊朗的军事选项 外交部回应

头条要闻

白宫称正考虑针对伊朗的军事选项 外交部回应

体育要闻

CBA还能众筹换帅?

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

健康
时尚
教育
本地
艺术

血常规3项异常,是身体警报!

走过那个夏天,甜茶终于站上金球奖之巅

教育要闻

12岁小学生吞下100粒药,遗书内容曝光,家长将英语老师告上法庭

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

艺术要闻

书法争议再起:拙与妍孰优孰劣引发热议

无障碍浏览 进入关怀版