网易首页 > 网易号 > 正文 申请入驻

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

0
分享至



空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。

要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信息做出合理决策,与环境产生有效交互。

为此,上海人工智能实验室 InternRobotics 团队近日推出了一套全面而硬核的空间智能视频基准 —— MMSI-Video-Bench,对当前主流多模态大模型精心打造了一场挑战系数极高的 “空间智能大考”。

本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、复旦大学、加州大学洛杉机分校 的研究者们共同完成。



  • 项目主页: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
  • ArXiv 论文: https://arxiv.org/abs/2512.10863
  • Hugging Face 数据集: https://huggingface.co/datasets/rbler/MMSI-Video-Bench
  • GitHub 代码库: https://github.com/InternRobotics/MMSI-Video-Bench

该基准具有以下显著特点:

(1)全面且系统的题型设计

MMSI-Video-Bench 首先从视频本身的时空信息理解出发,对模型的基础空间感知能力进行系统考察,主要包括:

  • 空间构建(Spatial Construction):聚焦于对全局空间布局的理解,涵盖实体与场景的空间状态属性,以及 相机、实体与场景之间的两两空间位置关系。
  • 运动理解(Motion Understanding):考察模型对长时运动过程的感知与理解能力,包括实体运动、相机运动,以及多实体之间的交互运动。

在此基础上,MMSI-Video-Bench 进一步评测模型基于时空信息进行高层决策的能力,具体包括:

  • 基于视频信息进行推理与行动的规划能力(Planning)
  • 对未来状态进行推断与想象的预测想象能力(Prediction)

由于真实世界的观测在时间上不一定是连续的,在空间上单一视角的信息不一定是完备的,MMSI-Video-Bench 进一步扩展了任务范畴,以更真实地覆盖现实场景中的复杂情形,考察模型跨视频的推理能力,这包含了跨时间的记忆更新能力(Memory Update);多视角信息的整合能力(Multi-View Integration)。

通过上述多层次、多维度的题型设计,MMSI-Video-Bench 构建了一个覆盖感知、推理与决策全过程的空间智能评测体系



MMSI-Video-Bench 由五大任务类型,13 个子类问题构成

(2)极具挑战性的问题设计

MMSI-Video-Bench 基准的所有问题由11 位平均研究年限超过 2.5 年的 3D 视觉研究员亲自把关精细设计,严格验收打磨,确保了基准每一个问题清晰准确,具有挑战性。所有模型均表现吃力,即便是最表现最好的 Gemini 3 Pro,也只有 38% 的准确率,相比其它的空间智能基准,具有目前最高的人类–AI 性能差距 (约 60%)。

(3) 丰富多样的视频数据来源

基准的视频数据来源于 25 个公开数据集 以及 1 个自建数据集,包含了机器人操作、从单房间到多层楼宇的室内场景、室外建筑与街景、自然风光、体育活动以及电影片段等多种拍摄类型,全面反映了真实世界中复杂多样、多尺度的空间场景

(4) 特定领域针对性的能力测评

此外,受益于场景类型的丰富以及任务类型的全面性,MMSI-Video-Bench 可以划分出室内场景感知(Indoor Scene Perception)/机器人(Robot) /定位(Grounding) 三大子基准,方便针对性测评模型特定能力。



MMSI-Video-Bench 的标注流程 和 比例 / 视频时长 / 词云分布

空间智能大考:揭示模型能力边界与瓶颈

(1)空间智能大考模型成绩单

研究团队对 25 个主流多模态模型 进行了评测,整体得分普遍偏低。即便是表现最优的 Gemini 3 Pro(38.0),与人类水平 (96.4) 之间仍存在接近 60%的显著差距。

与已有空间智能基准的结论一致,实验结果再次暴露了当前模型在空间构建能力上的不足。更为关键的是,得益于 MMSI-Video-Bench 在任务设计上的全面性,研究团队进一步发现:模型在 运动理解、规划、预测以及跨视频推理 等能力上同样存在明显瓶颈。

在所有任务类型中,预测(Prediction) 是最具挑战性的主任务, 相机–实体之间的空间关系建模 是难度最高的细分类别。此外,研究团队发现,即便是经过专门空间任务微调的模型,其能力也未能有效泛化到 MMSI-Video-Bench。



不同模型在 MMSI-Video-Bench 上的表现

(2)错误分析揭示模型瓶颈

为进一步定位模型性能受限的关键原因,研究团队对模型的推理结果进行了系统化复盘,并将错误归纳为五大类型:

  • 细致定位错误 (Detailed Grounding Error):模型在精细视觉感知层面出现失效,常见表现包括目标遗漏混淆,或 “时间点 - 事件” 对应关系感知错误。
  • ID 匹配错误 (ID Mapping Error):模型在跨帧过程中难以保持一致的实体身份跟踪。
  • 潜在逻辑推断错误 (Latent Logical Inference Error):模型在需要依赖隐含线索或常识知识的推理任务中失败。
  • 提示输入对齐错误 (Prompt Alignment Error):模型未能将提示信息(如背景假设、新增条件或辅助图像)与视频信息正确结合进行推理。
  • 几何推理错误 (Geometric Reasoning Error):模型在空间几何关系理解上存在偏差,对于相对位置或距离关系(如前后左右、远近)出现错误推断。



MMSI-Video-Bench 的五种错误类型示例

研究团队选取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四个具有代表性的模型进行了系统的错误分析和统计,结果如图所示。几何推理错误是最为普遍、影响最大的错误类型,而进一步的细分分析表明:

  • 空间构建任务 的低表现主要源于几何推理能力不足;
  • 运动理解任务 中,模型难以在 快速、细微或长时间跨度的运动 中保持精确定位;
  • 在 规划与预测任务 中,除几何推理错误外,模型往往无法有效理解提示输入,并将其与视频信息进行联合推理;
  • 跨视频推理任务 的失败主要源于 多目标跨视频定位的复杂性,以及模型难以利用潜在线索(如持续锁定同一目标)完成推理。



MMSI-Video-Bench 的五种错误类型分布

(3)空间线索与推理提示难以弥补核心能力不足

研究团队进一步探索了两种提升模型性能的策略:

  • 引入3D 空间线索以辅助模型理解,如图所示,通过使用高性能的 3D 重建模型从视频帧重建 3D 场景,并多视角渲染生成 2D 全局图像作为额外输入,给予模型 3D 空间线索辅助模型的理解推理;



3D 空间线索辅助方法

  • 采用思维链(Chain-of-Thought)技术,提示引导模型进行更规范的推理过程。上述方法均 未能带来显著的性能提升,这些结果进一步揭示了两个关键事实:
  • 如何设计模型真正 “可理解、可利用” 的空间线索,仍是一个开放且极具挑战性的问题;
  • 当前模型的失败 并非由于缺乏显式推理步骤,而是受限于 底层推理能力本身仍然不足。



3D 空间线索辅助与思维链提示下的模型性能变化

结语

MMSI-Video-Bench 是一个高质量、高挑战性且系统全面的视频空间智能评测基准,系统性地评估了多模态大模型在视频理解中的空间认知、推理与决策能力,评测结果清晰揭示了当前模型在多项核心任务上与人类表现之间仍存在显著差距。基于深入而细致的实验分析,研究进一步明确了现阶段模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1944年刘少奇急请全军改名,毛主席为何宁犯众怒也要强行叫停?三年后全党惊出冷汗

1944年刘少奇急请全军改名,毛主席为何宁犯众怒也要强行叫停?三年后全党惊出冷汗

史海孤雁
2026-04-10 17:06:11
国防部曾发出最后通牒:关于如何处理赖清德,大陆早考虑好了

国防部曾发出最后通牒:关于如何处理赖清德,大陆早考虑好了

南宗历史
2026-04-19 23:07:54
2026教师改革:1800万人的教师的身份都变了

2026教师改革:1800万人的教师的身份都变了

猫叔东山再起
2026-04-20 09:05:09
确定!不走了,三届全明星后卫,正式留在快船,6场白拿1100万

确定!不走了,三届全明星后卫,正式留在快船,6场白拿1100万

球童无忌
2026-04-20 22:51:55
婆婆八十大寿没叫我,我关机度假一月,回来老公催还寿宴垫款

婆婆八十大寿没叫我,我关机度假一月,回来老公催还寿宴垫款

艺鉴在线
2026-04-21 00:51:49
青春期教育最大的误区:父母拼命讲道理,孩子却只想你安静听他说

青春期教育最大的误区:父母拼命讲道理,孩子却只想你安静听他说

百合家庭教育
2026-04-20 09:37:14
天文学家彭罗斯:人类的死亡只是宇宙的幻象,生命是不可能终结的

天文学家彭罗斯:人类的死亡只是宇宙的幻象,生命是不可能终结的

心中的麦田
2026-03-06 19:27:32
原来她早已去世,带病演出,从患病到离世仅16天,去世原因心痛

原来她早已去世,带病演出,从患病到离世仅16天,去世原因心痛

华人星光
2026-04-20 10:15:09
网友爸爸2年前垃圾堆里捡回72条32GB DDR4内存:如今价值近14万

网友爸爸2年前垃圾堆里捡回72条32GB DDR4内存:如今价值近14万

快科技
2026-04-20 10:51:04
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

来科点谱
2026-02-16 07:12:06
迎来复兴曙光 全新奔驰S级轿跑车假想图曝光

迎来复兴曙光 全新奔驰S级轿跑车假想图曝光

车质网
2026-04-20 09:11:48
大的要来了!穆杰塔巴撸掉伊朗革命卫队总司令,换了个不怕死的

大的要来了!穆杰塔巴撸掉伊朗革命卫队总司令,换了个不怕死的

杰丝聊古今
2026-04-11 19:07:34
让人揪心的事终究来了?央行定调,5月后房产、存款或将迎来调整

让人揪心的事终究来了?央行定调,5月后房产、存款或将迎来调整

复转这些年
2026-04-19 23:17:41
金像奖成功收官:四大尴尬,三大暖心,两个意外发现,谢霆锋赢麻

金像奖成功收官:四大尴尬,三大暖心,两个意外发现,谢霆锋赢麻

八斗小先生
2026-04-20 16:37:47
看上去像“公务员”,其实连编制都没有的6个职业

看上去像“公务员”,其实连编制都没有的6个职业

细说职场
2026-04-12 17:02:40
200天后:如果阿森纳在长期领跑后错失英超冠军,这将是史上最大崩盘——阿尔特塔可能永远无法恢复

200天后:如果阿森纳在长期领跑后错失英超冠军,这将是史上最大崩盘——阿尔特塔可能永远无法恢复

绿茵情报局
2026-04-21 00:56:43
4月21日收盘:美股小幅收跌,市场关注美伊局势不确定性

4月21日收盘:美股小幅收跌,市场关注美伊局势不确定性

新浪财经
2026-04-21 04:10:47
中国坚决拒绝谈判,光刻机封锁引发全球紧张局势

中国坚决拒绝谈判,光刻机封锁引发全球紧张局势

普陀动物世界
2026-04-20 18:18:17
伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

风信子的花
2026-04-19 16:46:59
更新大潮来了?中央发文定调:2026年起20年房龄老房子或又吃香了

更新大潮来了?中央发文定调:2026年起20年房龄老房子或又吃香了

专业聊房君
2026-04-18 16:45:50
2026-04-21 04:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12813文章数 142633关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

健康
数码
游戏
旅游
军事航空

干细胞抗衰4大误区,90%的人都中招

数码要闻

REDMI 显示器 G Pro 27U 2026轻体验:电竞利器 桌面上的“小钢炮”

大司马回归两个月,某音人气稳居顶流行列,道出风光背后心酸现状

旅游要闻

以“Fun”为名,深圳布吉将发布全域旅游品牌IP

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版