网易首页 > 网易号 > 正文 申请入驻

景不动人动,OST-Bench揭示多模态大模型在线时空理解短板

0
分享至



多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。

对比离线 / 静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。代码和数据均已开源。



  • 论文链接:https://arxiv.org/abs/2507.07984
  • 项目主页:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 数据集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代码库:https://github.com/InternRobotics/OST-Bench

离线鸟瞰全景 VS 在线移步换景

在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。随着不断的探索,移步换景,我们对于全局场景逐步地形成一个更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系 (「我离那把椅子越来越远」「棕色的枕头现在在我的右后方」)。

和现实中的人类一样,在真实世界部署的智能体通常无法一次性获取全局环境,而是依赖连续输入的局部观测,需要在不断「移步换景」中完成在线感知、记忆维护与时空推理。这对导航、移动操控等具身任务尤为关键:比如在导航中,模型需要在当前时刻判断「刚才见到的目标现在在我左后方」,并据此决定行动。

随着多模态大模型在各类基准上不断刷新纪录,人们开始关注它们在真实世界设定下的表现。在时间维度,希望模型具备在线理解能力;在空间维度,希望模型能够基于 2d 观测构建 3d 空间布局认知。

然而,以往的空间智能评测多为离线、固定输入长度,而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知。OST-Bench 则更贴近真实世界场景,相比以往基准具有两大核心特点:

  1. 在线设定:模型必须在不断增长的观测中进行实时感知、记忆与推理;
  2. 跨时空理解:需要同时结合当前画面与历史信息,完成面向时间跨度的复杂空间推理

视频演示

正如下图所示,与传统离线空间基准相比,在线设定对模型提出了更高、更接近真实世界的要求。



基准介绍:「移步换景」为大模型带来了哪些新难题?

传统的静态场景理解主要关注物体属性及其静态关系。而探索的智能体中不断改变自身位置和视角,带来持续更新的信息类型与更丰富的问题形态。研究团队据此将动态场景理解划分为三大信息类别:智能体空间状态、智能体可见信息、智能体 - 物体空间关系。基于这三类信息,研究团队进一步设计了15 个子任务,覆盖判断(JUD)、估算(EST)、计数(CNT)、时间定位(TEMP)四类题型。基于规则生成 + 人工筛选,生成了基准的 10k 条测试集数据 (1.4k 个场景) 以及用于微调的 50k 条训练集数据 (7k 个场景)。



实验结果:大模型的在线场景时空理解答卷







  1. 主流大模型陷入困境:当前主流多模态大模型与人类存在显著性能差距,暴露出跨时空信息推理的能力短板 (上面表 1 / 表 2)。模型的准确率随着探索步数的持续下降说明现有范式难以适应长时序的在线设定。
  2. 空间增强模型能做好吗?结果可能没那么乐观。「空间建模」机制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),与其基座模型相比没有预期的显著提升,反而在部分任务上明显退步,并伴随指令遵循能力的下降。总体来看,空间增强模型虽然在特定数据分布中表现良好,但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现体现了 OST-Bench 在揭示模型真实能力边界方面的价值。



深入分析:大模型的表现诊断书

1.共性问题聚焦——大模型遇到难题更喜欢走捷径?

通过错误统计我们发现模型的犯错集中在推理步骤,而在对错误案例的深入分析中,研究团队发现一个十分典型的共性现象:在面对复杂时空推理问题时,对比主动回溯历史信息或检索关键线索,模型更倾向于「就地猜测」—— 仅依据当前片段中的有限信息做出草率推断,而非进行真正的时空整合推理。

研究团队将这种现象称为「时空推理捷径(Spatio-temporal Reasoning Shortcut)」:模型看似给出了合理答案,但推理过程并无充分依据,往往只是 「表面合理」。





绿 / 红色代表模型推理正确 / 错误的地方

2.跨视角推理测评子集——对于 MLLM 的专项补考

为了更精确地定位模型的能力边界,研究团队设计了一个针对性子集。和之前的测评不同,这次 (1) 按难度分级:研究团队按是否需要多步的复杂推理 (如下图) 以及是否提前提出关键帧,将问题划分为四个难度等级。对比单步关联,多步空间关联任务要求更强的推理能力;对比只有关键帧输入,全视频输入则需在冗长观察中识别用于解答的关键帧。

(2) 补考的结果表明:复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。



3.微调实验——提前「预习」在 OST-Bench 的帮助有多大?

为了评估模型能力的上限,研究团队基于来自 7000 个场景的 5 万条问答数据对多种模型进行了微调实验。所有模型的分数均提升了超过 10%,证明「提前预习突击」确实有效。然而,团队也发现真正涉及复杂时空推理的任务仍难以突破 50% 的准确率,说明单纯微调并不能触及问题本质;此外,模型在部分题型上呈现出明显的「背答案」倾向而非真正理解。微调后的模型还容易「变得不听话」,无法稳定遵守格式对自己的答案进行解释。

现象表明:微调可以带来提升,但这种提升更像是「题海战术式的熟练」,而非 「机制上的理解进步」。在这门课上,没有结构和范式的突破,仅靠刷数据是无法真正拿高分的。要攻克 OST-Bench,必须依赖更强的模型设计或训练策略。

总结

OST-Bench 提出了一个在线的时空场景理解基准,通过对于多个多模态大模型的评估,揭示了当前模型在面对「在线时空理解」任务时的深层短板,也为未来模型的发展指明了方向:突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他是军统正局长,一生暗中帮我党,死后破例葬入八宝山,民族脊梁

他是军统正局长,一生暗中帮我党,死后破例葬入八宝山,民族脊梁

历史人文2
2026-02-24 16:10:55
杨瀚森缺席开拓者遭森林狼三杀 华子34分戈贝尔复出10+19

杨瀚森缺席开拓者遭森林狼三杀 华子34分戈贝尔复出10+19

醉卧浮生
2026-02-25 13:44:20
2月25日人民币对美元中间价调升93个基点

2月25日人民币对美元中间价调升93个基点

证券时报
2026-02-25 09:31:35
广西高速堵车一大哥在路边架锅卖炒粉,路过车主:才10元一份,味道好分量足

广西高速堵车一大哥在路边架锅卖炒粉,路过车主:才10元一份,味道好分量足

扬子晚报
2026-02-25 07:56:36
平顶山再通报“夫妻殴打15岁女生”:如此嚣张,离不开这三个原因

平顶山再通报“夫妻殴打15岁女生”:如此嚣张,离不开这三个原因

英军眼
2026-02-25 10:53:41
男同学写作文说长大娶我,我气得把他赶上树,我却成了他的新娘

男同学写作文说长大娶我,我气得把他赶上树,我却成了他的新娘

人间百态大全
2026-02-25 06:40:03
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
Memes:永远别忘了雷霆当年因为霍福德太老就把他雪藏的事

Memes:永远别忘了雷霆当年因为霍福德太老就把他雪藏的事

林子说事
2026-02-25 10:48:49
一只励志的小黑猪:为了活命,拼命帮主人干活,最终获得免死金牌

一只励志的小黑猪:为了活命,拼命帮主人干活,最终获得免死金牌

狸猫之一的动物圈
2026-02-24 09:00:11
中国“创客三件套”,让老外心甘情愿掏腰包

中国“创客三件套”,让老外心甘情愿掏腰包

最华人
2026-02-24 09:22:25
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

北纬的咖啡豆
2026-02-20 19:12:17
《好好的时光》女主成败笔!大脸凸嘴还没演技,别再霍霍年代剧了

《好好的时光》女主成败笔!大脸凸嘴还没演技,别再霍霍年代剧了

林轻吟
2026-02-24 19:45:31
新加坡大满贯赛:世界亚军被淘汰!1:3不敌张本智和,向鹏3:0晋级

新加坡大满贯赛:世界亚军被淘汰!1:3不敌张本智和,向鹏3:0晋级

国乒二三事
2026-02-25 13:30:17
河南平顶山郏县再通报打人事件:犯罪嫌疑人刑期与赔偿全解析

河南平顶山郏县再通报打人事件:犯罪嫌疑人刑期与赔偿全解析

春树说法
2026-02-25 08:13:11
巴拿马强硬接管长和双港口,关键时刻,中方给特朗普访华泼了冷水

巴拿马强硬接管长和双港口,关键时刻,中方给特朗普访华泼了冷水

嫹笔牂牂
2026-02-25 11:35:46
“不合理不透明!”沪上新能源车充电,遭遇“三重收费”!市民直呼“太离谱”

“不合理不透明!”沪上新能源车充电,遭遇“三重收费”!市民直呼“太离谱”

新民晚报
2026-02-24 19:05:37
你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

夜深爱杂谈
2026-02-24 20:10:07
戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

不似少年游
2026-02-24 19:24:23
新加坡大满贯赛:8强对阵出炉!国乒3:1逆转获胜,头号种子被淘汰

新加坡大满贯赛:8强对阵出炉!国乒3:1逆转获胜,头号种子被淘汰

国乒二三事
2026-02-25 11:56:13
剑斩楼兰:乌军南线收复400平方公里,第聂伯罗全州解放

剑斩楼兰:乌军南线收复400平方公里,第聂伯罗全州解放

史政先锋
2026-02-24 15:00:08
2026-02-25 15:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12349文章数 142569关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

15岁少女和姐姐吵架后失联半月 父亲悬赏100万寻人

头条要闻

15岁少女和姐姐吵架后失联半月 父亲悬赏100万寻人

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

游戏
教育
本地
健康
艺术

生化9总监是任天堂“死忠粉”?怪物设计一脉相承

教育要闻

【调剂专区】26考研调剂信息第二弹

本地新闻

津南好·四时总相宜

转头就晕的耳石症,能开车上班吗?

艺术要闻

这位艺术家的马赛克画让人惊叹不已!

无障碍浏览 进入关怀版