网易首页 > 网易号 > 正文 申请入驻

景不动人动,OST-Bench揭示多模态大模型在线时空理解短板

0
分享至



多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。

对比离线 / 静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。代码和数据均已开源。



  • 论文链接:https://arxiv.org/abs/2507.07984
  • 项目主页:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 数据集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代码库:https://github.com/InternRobotics/OST-Bench

离线鸟瞰全景 VS 在线移步换景

在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。随着不断的探索,移步换景,我们对于全局场景逐步地形成一个更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系 (「我离那把椅子越来越远」「棕色的枕头现在在我的右后方」)。

和现实中的人类一样,在真实世界部署的智能体通常无法一次性获取全局环境,而是依赖连续输入的局部观测,需要在不断「移步换景」中完成在线感知、记忆维护与时空推理。这对导航、移动操控等具身任务尤为关键:比如在导航中,模型需要在当前时刻判断「刚才见到的目标现在在我左后方」,并据此决定行动。

随着多模态大模型在各类基准上不断刷新纪录,人们开始关注它们在真实世界设定下的表现。在时间维度,希望模型具备在线理解能力;在空间维度,希望模型能够基于 2d 观测构建 3d 空间布局认知。

然而,以往的空间智能评测多为离线、固定输入长度,而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知。OST-Bench 则更贴近真实世界场景,相比以往基准具有两大核心特点:

  1. 在线设定:模型必须在不断增长的观测中进行实时感知、记忆与推理;
  2. 跨时空理解:需要同时结合当前画面与历史信息,完成面向时间跨度的复杂空间推理

视频演示

正如下图所示,与传统离线空间基准相比,在线设定对模型提出了更高、更接近真实世界的要求。



基准介绍:「移步换景」为大模型带来了哪些新难题?

传统的静态场景理解主要关注物体属性及其静态关系。而探索的智能体中不断改变自身位置和视角,带来持续更新的信息类型与更丰富的问题形态。研究团队据此将动态场景理解划分为三大信息类别:智能体空间状态、智能体可见信息、智能体 - 物体空间关系。基于这三类信息,研究团队进一步设计了15 个子任务,覆盖判断(JUD)、估算(EST)、计数(CNT)、时间定位(TEMP)四类题型。基于规则生成 + 人工筛选,生成了基准的 10k 条测试集数据 (1.4k 个场景) 以及用于微调的 50k 条训练集数据 (7k 个场景)。



实验结果:大模型的在线场景时空理解答卷







  1. 主流大模型陷入困境:当前主流多模态大模型与人类存在显著性能差距,暴露出跨时空信息推理的能力短板 (上面表 1 / 表 2)。模型的准确率随着探索步数的持续下降说明现有范式难以适应长时序的在线设定。
  2. 空间增强模型能做好吗?结果可能没那么乐观。「空间建模」机制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),与其基座模型相比没有预期的显著提升,反而在部分任务上明显退步,并伴随指令遵循能力的下降。总体来看,空间增强模型虽然在特定数据分布中表现良好,但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现体现了 OST-Bench 在揭示模型真实能力边界方面的价值。



深入分析:大模型的表现诊断书

1.共性问题聚焦——大模型遇到难题更喜欢走捷径?

通过错误统计我们发现模型的犯错集中在推理步骤,而在对错误案例的深入分析中,研究团队发现一个十分典型的共性现象:在面对复杂时空推理问题时,对比主动回溯历史信息或检索关键线索,模型更倾向于「就地猜测」—— 仅依据当前片段中的有限信息做出草率推断,而非进行真正的时空整合推理。

研究团队将这种现象称为「时空推理捷径(Spatio-temporal Reasoning Shortcut)」:模型看似给出了合理答案,但推理过程并无充分依据,往往只是 「表面合理」。





绿 / 红色代表模型推理正确 / 错误的地方

2.跨视角推理测评子集——对于 MLLM 的专项补考

为了更精确地定位模型的能力边界,研究团队设计了一个针对性子集。和之前的测评不同,这次 (1) 按难度分级:研究团队按是否需要多步的复杂推理 (如下图) 以及是否提前提出关键帧,将问题划分为四个难度等级。对比单步关联,多步空间关联任务要求更强的推理能力;对比只有关键帧输入,全视频输入则需在冗长观察中识别用于解答的关键帧。

(2) 补考的结果表明:复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。



3.微调实验——提前「预习」在 OST-Bench 的帮助有多大?

为了评估模型能力的上限,研究团队基于来自 7000 个场景的 5 万条问答数据对多种模型进行了微调实验。所有模型的分数均提升了超过 10%,证明「提前预习突击」确实有效。然而,团队也发现真正涉及复杂时空推理的任务仍难以突破 50% 的准确率,说明单纯微调并不能触及问题本质;此外,模型在部分题型上呈现出明显的「背答案」倾向而非真正理解。微调后的模型还容易「变得不听话」,无法稳定遵守格式对自己的答案进行解释。

现象表明:微调可以带来提升,但这种提升更像是「题海战术式的熟练」,而非 「机制上的理解进步」。在这门课上,没有结构和范式的突破,仅靠刷数据是无法真正拿高分的。要攻克 OST-Bench,必须依赖更强的模型设计或训练策略。

总结

OST-Bench 提出了一个在线的时空场景理解基准,通过对于多个多模态大模型的评估,揭示了当前模型在面对「在线时空理解」任务时的深层短板,也为未来模型的发展指明了方向:突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特斯拉车顶维权当事人就被限高再发声:将按程序给付赔偿款

特斯拉车顶维权当事人就被限高再发声:将按程序给付赔偿款

南方都市报
2025-12-31 16:12:09
王伟南海跳伞后20年才被找到,10万人搜寻未果

王伟南海跳伞后20年才被找到,10万人搜寻未果

优趣纪史记
2025-12-31 13:25:58
99年,山东一男子预感钢材要大涨,在2千一吨时砸下重金囤了500吨

99年,山东一男子预感钢材要大涨,在2千一吨时砸下重金囤了500吨

卡西莫多的故事
2025-12-31 10:08:32
《甄嬛传》变身枪战片,“AI魔改”该刹车了 | 新京报快评

《甄嬛传》变身枪战片,“AI魔改”该刹车了 | 新京报快评

新京报
2025-12-31 18:33:13
缺谁谁尴尬!国足26人名单公布后 这6位球员将退出 邵佳一有魄力

缺谁谁尴尬!国足26人名单公布后 这6位球员将退出 邵佳一有魄力

侃球熊弟
2026-01-02 00:01:44
知名港星袁祥仁去世,享年69岁,原因曝光,最后露面呼吸困难

知名港星袁祥仁去世,享年69岁,原因曝光,最后露面呼吸困难

180视角
2026-01-02 01:29:16
2026第1天,新加坡跳出来了,列出中国 “7大不如意”比美国还狂

2026第1天,新加坡跳出来了,列出中国 “7大不如意”比美国还狂

社会日日鲜
2026-01-02 01:20:32
天空:马雷斯卡“最糟糕的48小时”与詹姆斯的出场时间有关

天空:马雷斯卡“最糟糕的48小时”与詹姆斯的出场时间有关

懂球帝
2026-01-02 01:41:20
中国为何按兵不动?一旦卷入战争,无国可为中国兜底!

中国为何按兵不动?一旦卷入战争,无国可为中国兜底!

文雅笔墨
2026-01-01 05:32:43
央视怒批!人民日报点名封杀!这5位目无法纪的大网红,彻底凉凉

央视怒批!人民日报点名封杀!这5位目无法纪的大网红,彻底凉凉

生活魔术专家
2026-01-01 15:09:03
2025年度十大烂片,没有最烂只有更烂,每部都是电影界的奇耻大辱

2025年度十大烂片,没有最烂只有更烂,每部都是电影界的奇耻大辱

小Q侃电影
2025-12-30 09:45:30
换帅如换刀!浙江迎3连胜,120秒狂追11分,球迷:感谢刘维伟师徒

换帅如换刀!浙江迎3连胜,120秒狂追11分,球迷:感谢刘维伟师徒

理工男评篮球
2026-01-02 00:11:38
恭喜!男演员在跨年舞台求婚成功!

恭喜!男演员在跨年舞台求婚成功!

深圳晚报
2026-01-01 08:55:23
越扒越多!南博一级文物失踪半个月,最后发现被中学生捡走了

越扒越多!南博一级文物失踪半个月,最后发现被中学生捡走了

鋭娱之乐
2025-12-31 08:58:39
凌晨3点半,大批市民出动!今天一早已经堵成深红色!朋友圈被这幕刷屏……

凌晨3点半,大批市民出动!今天一早已经堵成深红色!朋友圈被这幕刷屏……

19楼
2026-01-01 08:56:49
场均31分9板,MVP限时回归?你就这么打,其实离被交易也不远了

场均31分9板,MVP限时回归?你就这么打,其实离被交易也不远了

老梁体育漫谈
2026-01-02 00:44:07
特朗普不宣而战,美军已经开火,中俄介入局势,局面开始一边倒

特朗普不宣而战,美军已经开火,中俄介入局势,局面开始一边倒

博览历史
2025-12-31 20:50:44
新年开新局|追光而行

新年开新局|追光而行

新华社
2026-01-01 16:37:03
上海“首场雪”终于来了,气温降至冰点,“热闹”模式开启,最高峰就在今天

上海“首场雪”终于来了,气温降至冰点,“热闹”模式开启,最高峰就在今天

新民晚报
2026-01-01 15:21:49
停工450天,订单锐减40%!外资集体“大撤离”,世界工厂时代结束了?

停工450天,订单锐减40%!外资集体“大撤离”,世界工厂时代结束了?

刘旷
2026-01-01 20:01:47
2026-01-02 02:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12031文章数 142527关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

收到情报后 卢卡申科“提醒普京不要赴会”

头条要闻

收到情报后 卢卡申科“提醒普京不要赴会”

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

教育
时尚
房产
数码
本地

教育要闻

田家炳中学校长新年原创诗朗诵:沿着这条路,我们继续奔跑!

2025年,记住她们的名字!

房产要闻

实景暴击!海口这个顶流红盘,抛出准现房+顶级书包双王炸!

数码要闻

REDMI Note 15系列新春版图赏:999元起 新增车厘子红配色

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

无障碍浏览 进入关怀版