网易首页 > 网易号 > 正文 申请入驻

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

0
分享至



空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。

要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信息做出合理决策,与环境产生有效交互。

为此,上海人工智能实验室 InternRobotics 团队近日推出了一套全面而硬核的空间智能视频基准 —— MMSI-Video-Bench,对当前主流多模态大模型精心打造了一场挑战系数极高的 “空间智能大考”。

本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、复旦大学、加州大学洛杉机分校 的研究者们共同完成。



  • 项目主页: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
  • ArXiv 论文: https://arxiv.org/abs/2512.10863
  • Hugging Face 数据集: https://huggingface.co/datasets/rbler/MMSI-Video-Bench
  • GitHub 代码库: https://github.com/InternRobotics/MMSI-Video-Bench

该基准具有以下显著特点:

(1)全面且系统的题型设计

MMSI-Video-Bench 首先从视频本身的时空信息理解出发,对模型的基础空间感知能力进行系统考察,主要包括:

  • 空间构建(Spatial Construction):聚焦于对全局空间布局的理解,涵盖实体与场景的空间状态属性,以及 相机、实体与场景之间的两两空间位置关系。
  • 运动理解(Motion Understanding):考察模型对长时运动过程的感知与理解能力,包括实体运动、相机运动,以及多实体之间的交互运动。

在此基础上,MMSI-Video-Bench 进一步评测模型基于时空信息进行高层决策的能力,具体包括:

  • 基于视频信息进行推理与行动的规划能力(Planning)
  • 对未来状态进行推断与想象的预测想象能力(Prediction)

由于真实世界的观测在时间上不一定是连续的,在空间上单一视角的信息不一定是完备的,MMSI-Video-Bench 进一步扩展了任务范畴,以更真实地覆盖现实场景中的复杂情形,考察模型跨视频的推理能力,这包含了跨时间的记忆更新能力(Memory Update);多视角信息的整合能力(Multi-View Integration)。

通过上述多层次、多维度的题型设计,MMSI-Video-Bench 构建了一个覆盖感知、推理与决策全过程的空间智能评测体系



MMSI-Video-Bench 由五大任务类型,13 个子类问题构成

(2)极具挑战性的问题设计

MMSI-Video-Bench 基准的所有问题由11 位平均研究年限超过 2.5 年的 3D 视觉研究员亲自把关精细设计,严格验收打磨,确保了基准每一个问题清晰准确,具有挑战性。所有模型均表现吃力,即便是最表现最好的 Gemini 3 Pro,也只有 38% 的准确率,相比其它的空间智能基准,具有目前最高的人类–AI 性能差距 (约 60%)。

(3) 丰富多样的视频数据来源

基准的视频数据来源于 25 个公开数据集 以及 1 个自建数据集,包含了机器人操作、从单房间到多层楼宇的室内场景、室外建筑与街景、自然风光、体育活动以及电影片段等多种拍摄类型,全面反映了真实世界中复杂多样、多尺度的空间场景

(4) 特定领域针对性的能力测评

此外,受益于场景类型的丰富以及任务类型的全面性,MMSI-Video-Bench 可以划分出室内场景感知(Indoor Scene Perception)/机器人(Robot) /定位(Grounding) 三大子基准,方便针对性测评模型特定能力。



MMSI-Video-Bench 的标注流程 和 比例 / 视频时长 / 词云分布

空间智能大考:揭示模型能力边界与瓶颈

(1)空间智能大考模型成绩单

研究团队对 25 个主流多模态模型 进行了评测,整体得分普遍偏低。即便是表现最优的 Gemini 3 Pro(38.0),与人类水平 (96.4) 之间仍存在接近 60%的显著差距。

与已有空间智能基准的结论一致,实验结果再次暴露了当前模型在空间构建能力上的不足。更为关键的是,得益于 MMSI-Video-Bench 在任务设计上的全面性,研究团队进一步发现:模型在 运动理解、规划、预测以及跨视频推理 等能力上同样存在明显瓶颈。

在所有任务类型中,预测(Prediction) 是最具挑战性的主任务, 相机–实体之间的空间关系建模 是难度最高的细分类别。此外,研究团队发现,即便是经过专门空间任务微调的模型,其能力也未能有效泛化到 MMSI-Video-Bench。



不同模型在 MMSI-Video-Bench 上的表现

(2)错误分析揭示模型瓶颈

为进一步定位模型性能受限的关键原因,研究团队对模型的推理结果进行了系统化复盘,并将错误归纳为五大类型:

  • 细致定位错误 (Detailed Grounding Error):模型在精细视觉感知层面出现失效,常见表现包括目标遗漏混淆,或 “时间点 - 事件” 对应关系感知错误。
  • ID 匹配错误 (ID Mapping Error):模型在跨帧过程中难以保持一致的实体身份跟踪。
  • 潜在逻辑推断错误 (Latent Logical Inference Error):模型在需要依赖隐含线索或常识知识的推理任务中失败。
  • 提示输入对齐错误 (Prompt Alignment Error):模型未能将提示信息(如背景假设、新增条件或辅助图像)与视频信息正确结合进行推理。
  • 几何推理错误 (Geometric Reasoning Error):模型在空间几何关系理解上存在偏差,对于相对位置或距离关系(如前后左右、远近)出现错误推断。



MMSI-Video-Bench 的五种错误类型示例

研究团队选取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四个具有代表性的模型进行了系统的错误分析和统计,结果如图所示。几何推理错误是最为普遍、影响最大的错误类型,而进一步的细分分析表明:

  • 空间构建任务 的低表现主要源于几何推理能力不足;
  • 运动理解任务 中,模型难以在 快速、细微或长时间跨度的运动 中保持精确定位;
  • 在 规划与预测任务 中,除几何推理错误外,模型往往无法有效理解提示输入,并将其与视频信息进行联合推理;
  • 跨视频推理任务 的失败主要源于 多目标跨视频定位的复杂性,以及模型难以利用潜在线索(如持续锁定同一目标)完成推理。



MMSI-Video-Bench 的五种错误类型分布

(3)空间线索与推理提示难以弥补核心能力不足

研究团队进一步探索了两种提升模型性能的策略:

  • 引入3D 空间线索以辅助模型理解,如图所示,通过使用高性能的 3D 重建模型从视频帧重建 3D 场景,并多视角渲染生成 2D 全局图像作为额外输入,给予模型 3D 空间线索辅助模型的理解推理;



3D 空间线索辅助方法

  • 采用思维链(Chain-of-Thought)技术,提示引导模型进行更规范的推理过程。上述方法均 未能带来显著的性能提升,这些结果进一步揭示了两个关键事实:
  • 如何设计模型真正 “可理解、可利用” 的空间线索,仍是一个开放且极具挑战性的问题;
  • 当前模型的失败 并非由于缺乏显式推理步骤,而是受限于 底层推理能力本身仍然不足。



3D 空间线索辅助与思维链提示下的模型性能变化

结语

MMSI-Video-Bench 是一个高质量、高挑战性且系统全面的视频空间智能评测基准,系统性地评估了多模态大模型在视频理解中的空间认知、推理与决策能力,评测结果清晰揭示了当前模型在多项核心任务上与人类表现之间仍存在显著差距。基于深入而细致的实验分析,研究进一步明确了现阶段模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新疆生产建设兵团:坚决拥护党中央决定

新疆生产建设兵团:坚决拥护党中央决定

新京报政事儿
2026-01-09 14:50:48
伊朗实施网络管控

伊朗实施网络管控

财联社
2026-01-09 01:54:04
他是任期最长的江苏省长,1967年被夺权,1980年又担任江苏省长

他是任期最长的江苏省长,1967年被夺权,1980年又担任江苏省长

叹为观止易
2026-01-08 15:59:17
丹麦国防部:若美国武力夺取格陵兰岛 丹麦士兵可“先开枪再请示”

丹麦国防部:若美国武力夺取格陵兰岛 丹麦士兵可“先开枪再请示”

财联社
2026-01-08 14:40:05
美军公海扣押俄油轮,俄海军竟一旁围观,这艘船到底是什么来历?

美军公海扣押俄油轮,俄海军竟一旁围观,这艘船到底是什么来历?

装甲铲史官
2026-01-08 14:48:57
可控核聚变领域,国内表现优秀的10家公司名单曝光!(建议收藏)

可控核聚变领域,国内表现优秀的10家公司名单曝光!(建议收藏)

元爸体育
2026-01-09 08:49:12
爆雷百亿的浙金受害人,开始回款了

爆雷百亿的浙金受害人,开始回款了

鸣金网
2026-01-08 18:54:10
记者:奇才愿与特雷-杨签3年1.2亿美元续约合同,奇才很欢迎他加盟

记者:奇才愿与特雷-杨签3年1.2亿美元续约合同,奇才很欢迎他加盟

懂球帝
2026-01-09 08:42:10
活塞传奇:不理解现在的人对詹姆斯不屑一顾,反而在追捧乔丹

活塞传奇:不理解现在的人对詹姆斯不屑一顾,反而在追捧乔丹

懂球帝
2026-01-09 07:45:44
一块不该出现的石头,上面记载的若是真的,将彻底改写人类历史

一块不该出现的石头,上面记载的若是真的,将彻底改写人类历史

丰谭笔录
2026-01-09 07:50:09
医生从濒死患者动脉掏血栓如同掏碎肉,因为严重的肺动脉栓塞,导致血氧极低无法自主呼吸

医生从濒死患者动脉掏血栓如同掏碎肉,因为严重的肺动脉栓塞,导致血氧极低无法自主呼吸

观威海
2026-01-06 10:46:23
后院彻底起火!丹麦不玩了:美国若敢动格陵兰,北约就地解散!

后院彻底起火!丹麦不玩了:美国若敢动格陵兰,北约就地解散!

防务观察室
2026-01-06 14:42:25
向杀父嫌犯,索赔1000万

向杀父嫌犯,索赔1000万

中国新闻周刊
2026-01-09 12:17:57
别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

诗意世界
2026-01-03 15:19:25
格陵兰发达到什么水平?我去了才发现,差距真的太大

格陵兰发达到什么水平?我去了才发现,差距真的太大

娱乐八卦木木子
2026-01-07 15:14:07
感谢邵佳一!李昊最后时刻3次世界级扑救:中国足球真不缺门将

感谢邵佳一!李昊最后时刻3次世界级扑救:中国足球真不缺门将

邱泽云
2026-01-09 01:07:50
最帅护旗手张自轩结婚不到一天,恶心一幕出现,新娘被批没有福相

最帅护旗手张自轩结婚不到一天,恶心一幕出现,新娘被批没有福相

鋭娱之乐
2026-01-09 08:45:21
官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

牛牛叨史
2026-01-07 13:34:04
中央决定:曲光吉履新职

中央决定:曲光吉履新职

新京报
2026-01-09 12:22:20
又要动手了!特朗普,下一个目标定了!

又要动手了!特朗普,下一个目标定了!

新动察
2026-01-08 11:40:11
2026-01-09 16:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12088文章数 142532关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

特朗普称若大陆改变台湾现状他将"不悦" 外交部回应

头条要闻

特朗普称若大陆改变台湾现状他将"不悦" 外交部回应

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

檀健次恋爱风波越演越烈 上学经历被扒

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

英伟达的野心:做一套自动驾驶的“安卓系统”

态度原创

时尚
教育
亲子
房产
军事航空

60+女性穿搭“高级感”秘诀:4个日常技巧,轻松美出优雅气质

教育要闻

常生龙:中小学日常考试管理新政的挑战,在于如何避免“穿新鞋走老路”

亲子要闻

48岁妈妈怀孕7个月才发现,孩子刚半岁肚子又大了?女儿紧急提问

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版