空间智能终极挑战MMSI-Video-Bench来了，顶级大模型全军覆没|模态|推理|bench

空间智能终极挑战MMSI-Video-Bench来了，顶级大模型全军覆没

2026-01-05 17:21:42　来源: 机器之心Pro

河北举报

分享至

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

要真正走入现实世界，模型不仅需要看得见，更要看得懂空间：它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理，并基于这些信息做出合理决策，与环境产生有效交互。

为此，上海人工智能实验室 InternRobotics 团队近日推出了一套全面而硬核的空间智能视频基准 —— MMSI-Video-Bench，对当前主流多模态大模型精心打造了一场挑战系数极高的 “空间智能大考”。

本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、复旦大学、加州大学洛杉机分校的研究者们共同完成。

项目主页： https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
ArXiv 论文： https://arxiv.org/abs/2512.10863
Hugging Face 数据集： https://huggingface.co/datasets/rbler/MMSI-Video-Bench
GitHub 代码库： https://github.com/InternRobotics/MMSI-Video-Bench

该基准具有以下显著特点：

（1）全面且系统的题型设计

MMSI-Video-Bench 首先从视频本身的时空信息理解出发，对模型的基础空间感知能力进行系统考察，主要包括：

空间构建（Spatial Construction）：聚焦于对全局空间布局的理解，涵盖实体与场景的空间状态属性，以及相机、实体与场景之间的两两空间位置关系。
运动理解（Motion Understanding）：考察模型对长时运动过程的感知与理解能力，包括实体运动、相机运动，以及多实体之间的交互运动。

在此基础上，MMSI-Video-Bench 进一步评测模型基于时空信息进行高层决策的能力，具体包括：

基于视频信息进行推理与行动的规划能力（Planning）
对未来状态进行推断与想象的预测想象能力（Prediction）

由于真实世界的观测在时间上不一定是连续的，在空间上单一视角的信息不一定是完备的，MMSI-Video-Bench 进一步扩展了任务范畴，以更真实地覆盖现实场景中的复杂情形，考察模型跨视频的推理能力，这包含了跨时间的记忆更新能力（Memory Update）；多视角信息的整合能力（Multi-View Integration）。

通过上述多层次、多维度的题型设计，MMSI-Video-Bench 构建了一个覆盖感知、推理与决策全过程的空间智能评测体系

MMSI-Video-Bench 由五大任务类型，13 个子类问题构成

（2）极具挑战性的问题设计

MMSI-Video-Bench 基准的所有问题由11 位平均研究年限超过 2.5 年的 3D 视觉研究员亲自把关精细设计，严格验收打磨，确保了基准每一个问题清晰准确，具有挑战性。所有模型均表现吃力，即便是最表现最好的 Gemini 3 Pro，也只有 38% 的准确率，相比其它的空间智能基准，具有目前最高的人类–AI 性能差距 (约 60%)。

(3) 丰富多样的视频数据来源

基准的视频数据来源于 25 个公开数据集以及 1 个自建数据集，包含了机器人操作、从单房间到多层楼宇的室内场景、室外建筑与街景、自然风光、体育活动以及电影片段等多种拍摄类型，全面反映了真实世界中复杂多样、多尺度的空间场景

(4) 特定领域针对性的能力测评

此外，受益于场景类型的丰富以及任务类型的全面性，MMSI-Video-Bench 可以划分出室内场景感知(Indoor Scene Perception)/机器人(Robot) /定位(Grounding) 三大子基准，方便针对性测评模型特定能力。

MMSI-Video-Bench 的标注流程和比例 / 视频时长 / 词云分布

空间智能大考：揭示模型能力边界与瓶颈

（1）空间智能大考模型成绩单

研究团队对 25 个主流多模态模型进行了评测，整体得分普遍偏低。即便是表现最优的 Gemini 3 Pro（38.0），与人类水平（96.4）之间仍存在接近 60%的显著差距。

与已有空间智能基准的结论一致，实验结果再次暴露了当前模型在空间构建能力上的不足。更为关键的是，得益于 MMSI-Video-Bench 在任务设计上的全面性，研究团队进一步发现：模型在运动理解、规划、预测以及跨视频推理等能力上同样存在明显瓶颈。

在所有任务类型中，预测（Prediction）是最具挑战性的主任务，相机–实体之间的空间关系建模是难度最高的细分类别。此外，研究团队发现，即便是经过专门空间任务微调的模型，其能力也未能有效泛化到 MMSI-Video-Bench。

不同模型在 MMSI-Video-Bench 上的表现

（2）错误分析揭示模型瓶颈

为进一步定位模型性能受限的关键原因，研究团队对模型的推理结果进行了系统化复盘，并将错误归纳为五大类型:

细致定位错误 (Detailed Grounding Error)：模型在精细视觉感知层面出现失效，常见表现包括目标遗漏混淆，或 “时间点 - 事件” 对应关系感知错误。
ID 匹配错误 (ID Mapping Error)：模型在跨帧过程中难以保持一致的实体身份跟踪。
潜在逻辑推断错误 (Latent Logical Inference Error)：模型在需要依赖隐含线索或常识知识的推理任务中失败。
提示输入对齐错误 (Prompt Alignment Error)：模型未能将提示信息（如背景假设、新增条件或辅助图像）与视频信息正确结合进行推理。
几何推理错误 (Geometric Reasoning Error)：模型在空间几何关系理解上存在偏差，对于相对位置或距离关系（如前后左右、远近）出现错误推断。

MMSI-Video-Bench 的五种错误类型示例

研究团队选取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四个具有代表性的模型进行了系统的错误分析和统计，结果如图所示。几何推理错误是最为普遍、影响最大的错误类型，而进一步的细分分析表明：

空间构建任务的低表现主要源于几何推理能力不足；
运动理解任务中，模型难以在快速、细微或长时间跨度的运动中保持精确定位；
在规划与预测任务中，除几何推理错误外，模型往往无法有效理解提示输入，并将其与视频信息进行联合推理；
跨视频推理任务的失败主要源于多目标跨视频定位的复杂性，以及模型难以利用潜在线索（如持续锁定同一目标）完成推理。

MMSI-Video-Bench 的五种错误类型分布

（3）空间线索与推理提示难以弥补核心能力不足

研究团队进一步探索了两种提升模型性能的策略：

引入3D 空间线索以辅助模型理解，如图所示，通过使用高性能的 3D 重建模型从视频帧重建 3D 场景，并多视角渲染生成 2D 全局图像作为额外输入，给予模型 3D 空间线索辅助模型的理解推理；

3D 空间线索辅助方法

采用思维链（Chain-of-Thought）技术，提示引导模型进行更规范的推理过程。上述方法均未能带来显著的性能提升，这些结果进一步揭示了两个关键事实：
如何设计模型真正 “可理解、可利用” 的空间线索，仍是一个开放且极具挑战性的问题；
当前模型的失败并非由于缺乏显式推理步骤，而是受限于底层推理能力本身仍然不足。

3D 空间线索辅助与思维链提示下的模型性能变化

结语

MMSI-Video-Bench 是一个高质量、高挑战性且系统全面的视频空间智能评测基准，系统性地评估了多模态大模型在视频理解中的空间认知、推理与决策能力，评测结果清晰揭示了当前模型在多项核心任务上与人类表现之间仍存在显著差距。基于深入而细致的实验分析，研究进一步明确了现阶段模型的关键能力瓶颈，并为未来空间智能模型的技术演进指明了研究方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.