网易首页 > 网易号 > 正文 申请入驻

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

0
分享至



空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。

要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信息做出合理决策,与环境产生有效交互。

为此,上海人工智能实验室 InternRobotics 团队近日推出了一套全面而硬核的空间智能视频基准 —— MMSI-Video-Bench,对当前主流多模态大模型精心打造了一场挑战系数极高的 “空间智能大考”。

本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、复旦大学、加州大学洛杉机分校 的研究者们共同完成。



  • 项目主页: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
  • ArXiv 论文: https://arxiv.org/abs/2512.10863
  • Hugging Face 数据集: https://huggingface.co/datasets/rbler/MMSI-Video-Bench
  • GitHub 代码库: https://github.com/InternRobotics/MMSI-Video-Bench

该基准具有以下显著特点:

(1)全面且系统的题型设计

MMSI-Video-Bench 首先从视频本身的时空信息理解出发,对模型的基础空间感知能力进行系统考察,主要包括:

  • 空间构建(Spatial Construction):聚焦于对全局空间布局的理解,涵盖实体与场景的空间状态属性,以及 相机、实体与场景之间的两两空间位置关系。
  • 运动理解(Motion Understanding):考察模型对长时运动过程的感知与理解能力,包括实体运动、相机运动,以及多实体之间的交互运动。

在此基础上,MMSI-Video-Bench 进一步评测模型基于时空信息进行高层决策的能力,具体包括:

  • 基于视频信息进行推理与行动的规划能力(Planning)
  • 对未来状态进行推断与想象的预测想象能力(Prediction)

由于真实世界的观测在时间上不一定是连续的,在空间上单一视角的信息不一定是完备的,MMSI-Video-Bench 进一步扩展了任务范畴,以更真实地覆盖现实场景中的复杂情形,考察模型跨视频的推理能力,这包含了跨时间的记忆更新能力(Memory Update);多视角信息的整合能力(Multi-View Integration)。

通过上述多层次、多维度的题型设计,MMSI-Video-Bench 构建了一个覆盖感知、推理与决策全过程的空间智能评测体系



MMSI-Video-Bench 由五大任务类型,13 个子类问题构成

(2)极具挑战性的问题设计

MMSI-Video-Bench 基准的所有问题由11 位平均研究年限超过 2.5 年的 3D 视觉研究员亲自把关精细设计,严格验收打磨,确保了基准每一个问题清晰准确,具有挑战性。所有模型均表现吃力,即便是最表现最好的 Gemini 3 Pro,也只有 38% 的准确率,相比其它的空间智能基准,具有目前最高的人类–AI 性能差距 (约 60%)。

(3) 丰富多样的视频数据来源

基准的视频数据来源于 25 个公开数据集 以及 1 个自建数据集,包含了机器人操作、从单房间到多层楼宇的室内场景、室外建筑与街景、自然风光、体育活动以及电影片段等多种拍摄类型,全面反映了真实世界中复杂多样、多尺度的空间场景

(4) 特定领域针对性的能力测评

此外,受益于场景类型的丰富以及任务类型的全面性,MMSI-Video-Bench 可以划分出室内场景感知(Indoor Scene Perception)/机器人(Robot) /定位(Grounding) 三大子基准,方便针对性测评模型特定能力。



MMSI-Video-Bench 的标注流程 和 比例 / 视频时长 / 词云分布

空间智能大考:揭示模型能力边界与瓶颈

(1)空间智能大考模型成绩单

研究团队对 25 个主流多模态模型 进行了评测,整体得分普遍偏低。即便是表现最优的 Gemini 3 Pro(38.0),与人类水平 (96.4) 之间仍存在接近 60%的显著差距。

与已有空间智能基准的结论一致,实验结果再次暴露了当前模型在空间构建能力上的不足。更为关键的是,得益于 MMSI-Video-Bench 在任务设计上的全面性,研究团队进一步发现:模型在 运动理解、规划、预测以及跨视频推理 等能力上同样存在明显瓶颈。

在所有任务类型中,预测(Prediction) 是最具挑战性的主任务, 相机–实体之间的空间关系建模 是难度最高的细分类别。此外,研究团队发现,即便是经过专门空间任务微调的模型,其能力也未能有效泛化到 MMSI-Video-Bench。



不同模型在 MMSI-Video-Bench 上的表现

(2)错误分析揭示模型瓶颈

为进一步定位模型性能受限的关键原因,研究团队对模型的推理结果进行了系统化复盘,并将错误归纳为五大类型:

  • 细致定位错误 (Detailed Grounding Error):模型在精细视觉感知层面出现失效,常见表现包括目标遗漏混淆,或 “时间点 - 事件” 对应关系感知错误。
  • ID 匹配错误 (ID Mapping Error):模型在跨帧过程中难以保持一致的实体身份跟踪。
  • 潜在逻辑推断错误 (Latent Logical Inference Error):模型在需要依赖隐含线索或常识知识的推理任务中失败。
  • 提示输入对齐错误 (Prompt Alignment Error):模型未能将提示信息(如背景假设、新增条件或辅助图像)与视频信息正确结合进行推理。
  • 几何推理错误 (Geometric Reasoning Error):模型在空间几何关系理解上存在偏差,对于相对位置或距离关系(如前后左右、远近)出现错误推断。



MMSI-Video-Bench 的五种错误类型示例

研究团队选取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四个具有代表性的模型进行了系统的错误分析和统计,结果如图所示。几何推理错误是最为普遍、影响最大的错误类型,而进一步的细分分析表明:

  • 空间构建任务 的低表现主要源于几何推理能力不足;
  • 运动理解任务 中,模型难以在 快速、细微或长时间跨度的运动 中保持精确定位;
  • 在 规划与预测任务 中,除几何推理错误外,模型往往无法有效理解提示输入,并将其与视频信息进行联合推理;
  • 跨视频推理任务 的失败主要源于 多目标跨视频定位的复杂性,以及模型难以利用潜在线索(如持续锁定同一目标)完成推理。



MMSI-Video-Bench 的五种错误类型分布

(3)空间线索与推理提示难以弥补核心能力不足

研究团队进一步探索了两种提升模型性能的策略:

  • 引入3D 空间线索以辅助模型理解,如图所示,通过使用高性能的 3D 重建模型从视频帧重建 3D 场景,并多视角渲染生成 2D 全局图像作为额外输入,给予模型 3D 空间线索辅助模型的理解推理;



3D 空间线索辅助方法

  • 采用思维链(Chain-of-Thought)技术,提示引导模型进行更规范的推理过程。上述方法均 未能带来显著的性能提升,这些结果进一步揭示了两个关键事实:
  • 如何设计模型真正 “可理解、可利用” 的空间线索,仍是一个开放且极具挑战性的问题;
  • 当前模型的失败 并非由于缺乏显式推理步骤,而是受限于 底层推理能力本身仍然不足。



3D 空间线索辅助与思维链提示下的模型性能变化

结语

MMSI-Video-Bench 是一个高质量、高挑战性且系统全面的视频空间智能评测基准,系统性地评估了多模态大模型在视频理解中的空间认知、推理与决策能力,评测结果清晰揭示了当前模型在多项核心任务上与人类表现之间仍存在显著差距。基于深入而细致的实验分析,研究进一步明确了现阶段模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

博士观察
2026-02-22 16:44:15
美芯片股反弹,AMD狂飙8%,存储牛股遭空头突袭跳水,美军向以色列南部部署11架战机

美芯片股反弹,AMD狂飙8%,存储牛股遭空头突袭跳水,美军向以色列南部部署11架战机

21世纪经济报道
2026-02-25 07:17:03
阿森纳队长彻底凉了?阿尔特塔摊牌,27 岁核心连替补都难立足

阿森纳队长彻底凉了?阿尔特塔摊牌,27 岁核心连替补都难立足

澜归序
2026-02-25 05:35:20
昔日CBA超级外援被裁!失业无球可打,球迷:活该

昔日CBA超级外援被裁!失业无球可打,球迷:活该

篮球大陆
2026-02-24 20:00:16
贝加尔湖坠车事件:江苏一家人均1万6看蓝冰,为省200块全家遇难

贝加尔湖坠车事件:江苏一家人均1万6看蓝冰,为省200块全家遇难

朗威谈星座
2026-02-24 16:40:18
女子出轨丈夫兄弟:劲爆视频流出,3人对话曝光,一画面信息量大

女子出轨丈夫兄弟:劲爆视频流出,3人对话曝光,一画面信息量大

博士观察
2026-02-24 16:45:57
CCTV5直播中国男篮世预赛决战日本!严防3分太关键,郭导背水一战

CCTV5直播中国男篮世预赛决战日本!严防3分太关键,郭导背水一战

老叶评球
2026-02-24 19:02:50
男子网恋被骗9.5万余元!松江警方破获一起婚恋诈骗案

男子网恋被骗9.5万余元!松江警方破获一起婚恋诈骗案

上观新闻
2026-02-24 12:19:12
巴拿马强行接管两港口,港府怒斥,长和要一究到底,中方立场明确

巴拿马强行接管两港口,港府怒斥,长和要一究到底,中方立场明确

孤城落叶
2026-02-25 07:30:23
场均30分7板2断,5000万年薪或归零!难怪你这么拼,确实快离队了

场均30分7板2断,5000万年薪或归零!难怪你这么拼,确实快离队了

老梁体育漫谈
2026-02-24 23:16:48
彻底撕破脸,巴拿马强闯港口办公区,驱逐中企员工,一点后路不留

彻底撕破脸,巴拿马强闯港口办公区,驱逐中企员工,一点后路不留

我不叫阿哏
2026-02-24 20:10:53
莫言说:当你老了,躺在病床上面,无依无靠时,你就会明白:这辈子最亲的,并非血脉至亲,竟是这3样东西。

莫言说:当你老了,躺在病床上面,无依无靠时,你就会明白:这辈子最亲的,并非血脉至亲,竟是这3样东西。

品读时刻
2026-02-11 17:17:59
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

墨印斋
2026-01-31 16:37:48
徐家人如果看到马筱梅分享的压岁钱红包,心情一定会很复杂吧

徐家人如果看到马筱梅分享的压岁钱红包,心情一定会很复杂吧

观察鉴娱
2026-02-24 09:57:58
国家动手集中整治“亲属岗”!山西多名领导被查~

国家动手集中整治“亲属岗”!山西多名领导被查~

无比
2026-02-24 09:58:41
贝加尔湖7条命,小红书躺枪

贝加尔湖7条命,小红书躺枪

智识漂流
2026-02-23 19:24:13
杀入16强!欧冠第1黑马杀疯:35天取4连胜 曼城马竞国米3豪门蒙羞

杀入16强!欧冠第1黑马杀疯:35天取4连胜 曼城马竞国米3豪门蒙羞

风过乡
2026-02-25 06:39:19
沈阳公园之乱是该管管了!“老头乐”不堪入目,太有碍观瞻了!

沈阳公园之乱是该管管了!“老头乐”不堪入目,太有碍观瞻了!

王姐懒人家常菜
2026-02-24 16:48:00
早新闻|国常会重磅部署,这个行业受关注

早新闻|国常会重磅部署,这个行业受关注

数据宝
2026-02-25 07:40:29
王濛也没想到,夺冠不到24小时,谷爱凌因一番话,再次口碑暴增

王濛也没想到,夺冠不到24小时,谷爱凌因一番话,再次口碑暴增

科学发掘
2026-02-25 06:25:10
2026-02-25 08:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

北京独生女被男友打残:他隐瞒有儿子 想把户口上我家

头条要闻

北京独生女被男友打残:他隐瞒有儿子 想把户口上我家

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

房产
家居
本地
游戏
手机

房产要闻

330万人涌入!春节全国楼市,第一个卖爆的区域出现了!

家居要闻

本真栖居 爱暖伴流年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

《怪物猎人物语3:命运双龙》制作团队专访:更RPG一点"/> 主站 商城 论坛 自运营 登录 注册 《怪物猎人物语3:命运双龙》制作团队专访:更RPG一...

手机要闻

Jolla展示旗下全新旗鱼手机工程机,首批产品今年上半年交付

无障碍浏览 进入关怀版