网易首页 > 网易号 > 正文 申请入驻

景不动人动,OST-Bench揭示多模态大模型在线时空理解短板

0
分享至



多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。

对比离线 / 静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。代码和数据均已开源。



  • 论文链接:https://arxiv.org/abs/2507.07984
  • 项目主页:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 数据集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代码库:https://github.com/InternRobotics/OST-Bench

离线鸟瞰全景 VS 在线移步换景

在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。随着不断的探索,移步换景,我们对于全局场景逐步地形成一个更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系 (「我离那把椅子越来越远」「棕色的枕头现在在我的右后方」)。

和现实中的人类一样,在真实世界部署的智能体通常无法一次性获取全局环境,而是依赖连续输入的局部观测,需要在不断「移步换景」中完成在线感知、记忆维护与时空推理。这对导航、移动操控等具身任务尤为关键:比如在导航中,模型需要在当前时刻判断「刚才见到的目标现在在我左后方」,并据此决定行动。

随着多模态大模型在各类基准上不断刷新纪录,人们开始关注它们在真实世界设定下的表现。在时间维度,希望模型具备在线理解能力;在空间维度,希望模型能够基于 2d 观测构建 3d 空间布局认知。

然而,以往的空间智能评测多为离线、固定输入长度,而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知。OST-Bench 则更贴近真实世界场景,相比以往基准具有两大核心特点:

  1. 在线设定:模型必须在不断增长的观测中进行实时感知、记忆与推理;
  2. 跨时空理解:需要同时结合当前画面与历史信息,完成面向时间跨度的复杂空间推理

视频演示

正如下图所示,与传统离线空间基准相比,在线设定对模型提出了更高、更接近真实世界的要求。



基准介绍:「移步换景」为大模型带来了哪些新难题?

传统的静态场景理解主要关注物体属性及其静态关系。而探索的智能体中不断改变自身位置和视角,带来持续更新的信息类型与更丰富的问题形态。研究团队据此将动态场景理解划分为三大信息类别:智能体空间状态、智能体可见信息、智能体 - 物体空间关系。基于这三类信息,研究团队进一步设计了15 个子任务,覆盖判断(JUD)、估算(EST)、计数(CNT)、时间定位(TEMP)四类题型。基于规则生成 + 人工筛选,生成了基准的 10k 条测试集数据 (1.4k 个场景) 以及用于微调的 50k 条训练集数据 (7k 个场景)。



实验结果:大模型的在线场景时空理解答卷







  1. 主流大模型陷入困境:当前主流多模态大模型与人类存在显著性能差距,暴露出跨时空信息推理的能力短板 (上面表 1 / 表 2)。模型的准确率随着探索步数的持续下降说明现有范式难以适应长时序的在线设定。
  2. 空间增强模型能做好吗?结果可能没那么乐观。「空间建模」机制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),与其基座模型相比没有预期的显著提升,反而在部分任务上明显退步,并伴随指令遵循能力的下降。总体来看,空间增强模型虽然在特定数据分布中表现良好,但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现体现了 OST-Bench 在揭示模型真实能力边界方面的价值。



深入分析:大模型的表现诊断书

1.共性问题聚焦——大模型遇到难题更喜欢走捷径?

通过错误统计我们发现模型的犯错集中在推理步骤,而在对错误案例的深入分析中,研究团队发现一个十分典型的共性现象:在面对复杂时空推理问题时,对比主动回溯历史信息或检索关键线索,模型更倾向于「就地猜测」—— 仅依据当前片段中的有限信息做出草率推断,而非进行真正的时空整合推理。

研究团队将这种现象称为「时空推理捷径(Spatio-temporal Reasoning Shortcut)」:模型看似给出了合理答案,但推理过程并无充分依据,往往只是 「表面合理」。





绿 / 红色代表模型推理正确 / 错误的地方

2.跨视角推理测评子集——对于 MLLM 的专项补考

为了更精确地定位模型的能力边界,研究团队设计了一个针对性子集。和之前的测评不同,这次 (1) 按难度分级:研究团队按是否需要多步的复杂推理 (如下图) 以及是否提前提出关键帧,将问题划分为四个难度等级。对比单步关联,多步空间关联任务要求更强的推理能力;对比只有关键帧输入,全视频输入则需在冗长观察中识别用于解答的关键帧。

(2) 补考的结果表明:复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。



3.微调实验——提前「预习」在 OST-Bench 的帮助有多大?

为了评估模型能力的上限,研究团队基于来自 7000 个场景的 5 万条问答数据对多种模型进行了微调实验。所有模型的分数均提升了超过 10%,证明「提前预习突击」确实有效。然而,团队也发现真正涉及复杂时空推理的任务仍难以突破 50% 的准确率,说明单纯微调并不能触及问题本质;此外,模型在部分题型上呈现出明显的「背答案」倾向而非真正理解。微调后的模型还容易「变得不听话」,无法稳定遵守格式对自己的答案进行解释。

现象表明:微调可以带来提升,但这种提升更像是「题海战术式的熟练」,而非 「机制上的理解进步」。在这门课上,没有结构和范式的突破,仅靠刷数据是无法真正拿高分的。要攻克 OST-Bench,必须依赖更强的模型设计或训练策略。

总结

OST-Bench 提出了一个在线的时空场景理解基准,通过对于多个多模态大模型的评估,揭示了当前模型在面对「在线时空理解」任务时的深层短板,也为未来模型的发展指明了方向:突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
14场打入22球!凯恩强势开局力压巅峰时期的C罗、梅西

14场打入22球!凯恩强势开局力压巅峰时期的C罗、梅西

星耀国际足坛
2025-11-01 23:34:54
玉石“骗局”:为什么全世界只有中国把它当宝贝?

玉石“骗局”:为什么全世界只有中国把它当宝贝?

白夜若梦
2025-10-29 16:59:27
“不会是独吞了吧”,初三女孩大疆被老师没收,家长打电话也不还

“不会是独吞了吧”,初三女孩大疆被老师没收,家长打电话也不还

熙熙说教
2025-10-31 20:56:52
17岁女孩弄丢妈妈,坚守上海火车站17年,卖盒饭为生,现场落泪

17岁女孩弄丢妈妈,坚守上海火车站17年,卖盒饭为生,现场落泪

明德阅读
2025-10-28 19:35:37
千万不要得罪这个种红薯的小女人!她被小米投诉后居然反杀获胜

千万不要得罪这个种红薯的小女人!她被小米投诉后居然反杀获胜

回旋镖
2025-11-01 18:25:05
没他在利物浦2-0!1.36亿水货14场仍0球 长传离谱出边线+对抗4赢1

没他在利物浦2-0!1.36亿水货14场仍0球 长传离谱出边线+对抗4赢1

我爱英超
2025-11-02 06:38:56
李兆会的18年复仇路

李兆会的18年复仇路

诗意世界
2025-10-10 14:09:20
荷兰ASML首席技术官直言:中国在用一种我们无法阻止的方式前进!

荷兰ASML首席技术官直言:中国在用一种我们无法阻止的方式前进!

元爸体育
2025-11-02 07:57:58
全球最大的公司诞生!市值突破36万亿,超过日本、德国GDP

全球最大的公司诞生!市值突破36万亿,超过日本、德国GDP

爱看剧的阿峰
2025-11-02 12:18:14
《数据周报89》:中国养老金人均领取2.2万元

《数据周报89》:中国养老金人均领取2.2万元

智本社
2025-11-02 17:25:54
俄军发布视频:困在红军城的乌军士兵开始成批投降

俄军发布视频:困在红军城的乌军士兵开始成批投降

俄语大世界
2025-11-02 10:19:06
高市早苗上台后,中国的第一次强烈抗议

高市早苗上台后,中国的第一次强烈抗议

牛弹琴
2025-11-02 08:14:58
中国要提防巴基斯坦,看看他们的小孩,随口就:“秦腔穷”

中国要提防巴基斯坦,看看他们的小孩,随口就:“秦腔穷”

阿鄖田间生活
2025-11-02 17:53:22
张文宏院士建议中老年人:多吃这5种“高蛋白”,腿脚有劲显年轻

张文宏院士建议中老年人:多吃这5种“高蛋白”,腿脚有劲显年轻

王二哥老搞笑
2025-10-30 15:07:41
申某、黄某被行拘!1年内不得观赛

申某、黄某被行拘!1年内不得观赛

深圳晚报
2025-11-01 23:54:45
买牛肉时,聪明人专挑这3个部位,全是精华,学会再买保证不吃亏

买牛肉时,聪明人专挑这3个部位,全是精华,学会再买保证不吃亏

简食记工作号
2025-11-01 00:11:15
暴雪也学坏了?魔兽即将新增一种游戏内货币,用人民币购买!

暴雪也学坏了?魔兽即将新增一种游戏内货币,用人民币购买!

魔兽世界研究所
2025-11-02 19:06:17
1958年,他被连降十级,9年后向中央写下绝命书,后吞枪自尽

1958年,他被连降十级,9年后向中央写下绝命书,后吞枪自尽

大运河时空
2025-11-01 17:40:03
荷兰安世断供,中国安世硬核回应,不仅不受影响,客户一个也不留

荷兰安世断供,中国安世硬核回应,不仅不受影响,客户一个也不留

一个有灵魂的作者
2025-11-02 13:42:02
突发!以军发动袭击

突发!以军发动袭击

证券时报e公司
2025-11-02 15:58:06
2025-11-02 19:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
时尚
本地
家居
房产

教育要闻

教育部留学服务中心更新官方学位认证的境外院校!哪些大学落榜?

推广|| 每天都在穿!这件外套,轻松搞定秋冬所有搭配

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

家居要闻

吸睛艺术 富有传奇色彩

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

无障碍浏览 进入关怀版