网易首页 > 网易号 > 正文 申请入驻

景不动人动,OST-Bench揭示多模态大模型在线时空理解短板

0
分享至



多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。

对比离线 / 静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。代码和数据均已开源。



  • 论文链接:https://arxiv.org/abs/2507.07984
  • 项目主页:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 数据集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代码库:https://github.com/InternRobotics/OST-Bench

离线鸟瞰全景 VS 在线移步换景

在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。随着不断的探索,移步换景,我们对于全局场景逐步地形成一个更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系 (「我离那把椅子越来越远」「棕色的枕头现在在我的右后方」)。

和现实中的人类一样,在真实世界部署的智能体通常无法一次性获取全局环境,而是依赖连续输入的局部观测,需要在不断「移步换景」中完成在线感知、记忆维护与时空推理。这对导航、移动操控等具身任务尤为关键:比如在导航中,模型需要在当前时刻判断「刚才见到的目标现在在我左后方」,并据此决定行动。

随着多模态大模型在各类基准上不断刷新纪录,人们开始关注它们在真实世界设定下的表现。在时间维度,希望模型具备在线理解能力;在空间维度,希望模型能够基于 2d 观测构建 3d 空间布局认知。

然而,以往的空间智能评测多为离线、固定输入长度,而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知。OST-Bench 则更贴近真实世界场景,相比以往基准具有两大核心特点:

  1. 在线设定:模型必须在不断增长的观测中进行实时感知、记忆与推理;
  2. 跨时空理解:需要同时结合当前画面与历史信息,完成面向时间跨度的复杂空间推理

视频演示

正如下图所示,与传统离线空间基准相比,在线设定对模型提出了更高、更接近真实世界的要求。



基准介绍:「移步换景」为大模型带来了哪些新难题?

传统的静态场景理解主要关注物体属性及其静态关系。而探索的智能体中不断改变自身位置和视角,带来持续更新的信息类型与更丰富的问题形态。研究团队据此将动态场景理解划分为三大信息类别:智能体空间状态、智能体可见信息、智能体 - 物体空间关系。基于这三类信息,研究团队进一步设计了15 个子任务,覆盖判断(JUD)、估算(EST)、计数(CNT)、时间定位(TEMP)四类题型。基于规则生成 + 人工筛选,生成了基准的 10k 条测试集数据 (1.4k 个场景) 以及用于微调的 50k 条训练集数据 (7k 个场景)。



实验结果:大模型的在线场景时空理解答卷







  1. 主流大模型陷入困境:当前主流多模态大模型与人类存在显著性能差距,暴露出跨时空信息推理的能力短板 (上面表 1 / 表 2)。模型的准确率随着探索步数的持续下降说明现有范式难以适应长时序的在线设定。
  2. 空间增强模型能做好吗?结果可能没那么乐观。「空间建模」机制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),与其基座模型相比没有预期的显著提升,反而在部分任务上明显退步,并伴随指令遵循能力的下降。总体来看,空间增强模型虽然在特定数据分布中表现良好,但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现体现了 OST-Bench 在揭示模型真实能力边界方面的价值。



深入分析:大模型的表现诊断书

1.共性问题聚焦——大模型遇到难题更喜欢走捷径?

通过错误统计我们发现模型的犯错集中在推理步骤,而在对错误案例的深入分析中,研究团队发现一个十分典型的共性现象:在面对复杂时空推理问题时,对比主动回溯历史信息或检索关键线索,模型更倾向于「就地猜测」—— 仅依据当前片段中的有限信息做出草率推断,而非进行真正的时空整合推理。

研究团队将这种现象称为「时空推理捷径(Spatio-temporal Reasoning Shortcut)」:模型看似给出了合理答案,但推理过程并无充分依据,往往只是 「表面合理」。





绿 / 红色代表模型推理正确 / 错误的地方

2.跨视角推理测评子集——对于 MLLM 的专项补考

为了更精确地定位模型的能力边界,研究团队设计了一个针对性子集。和之前的测评不同,这次 (1) 按难度分级:研究团队按是否需要多步的复杂推理 (如下图) 以及是否提前提出关键帧,将问题划分为四个难度等级。对比单步关联,多步空间关联任务要求更强的推理能力;对比只有关键帧输入,全视频输入则需在冗长观察中识别用于解答的关键帧。

(2) 补考的结果表明:复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。



3.微调实验——提前「预习」在 OST-Bench 的帮助有多大?

为了评估模型能力的上限,研究团队基于来自 7000 个场景的 5 万条问答数据对多种模型进行了微调实验。所有模型的分数均提升了超过 10%,证明「提前预习突击」确实有效。然而,团队也发现真正涉及复杂时空推理的任务仍难以突破 50% 的准确率,说明单纯微调并不能触及问题本质;此外,模型在部分题型上呈现出明显的「背答案」倾向而非真正理解。微调后的模型还容易「变得不听话」,无法稳定遵守格式对自己的答案进行解释。

现象表明:微调可以带来提升,但这种提升更像是「题海战术式的熟练」,而非 「机制上的理解进步」。在这门课上,没有结构和范式的突破,仅靠刷数据是无法真正拿高分的。要攻克 OST-Bench,必须依赖更强的模型设计或训练策略。

总结

OST-Bench 提出了一个在线的时空场景理解基准,通过对于多个多模态大模型的评估,揭示了当前模型在面对「在线时空理解」任务时的深层短板,也为未来模型的发展指明了方向:突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仇珂静,被严肃处理

仇珂静,被严肃处理

极目新闻
2025-11-03 10:35:28
重磅签约!27+25+13!湖人正式收获新巨头

重磅签约!27+25+13!湖人正式收获新巨头

篮球实战宝典
2025-11-03 15:01:58
中央电视台出品,38集扫黑大剧!由真实案件改编,尺度实在太大!

中央电视台出品,38集扫黑大剧!由真实案件改编,尺度实在太大!

TVB的四小花
2025-11-01 03:50:10
金正恩指示:朝鲜国狗的血统也一定要纯正!

金正恩指示:朝鲜国狗的血统也一定要纯正!

IN朝鲜
2025-11-03 14:07:25
14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

娱乐督察中
2025-10-30 10:33:53
久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

史政先锋
2025-11-03 11:54:13
男篮世预赛12人名单已明朗!周琦赵睿领衔:杨瀚森缺席赵继伟落选

男篮世预赛12人名单已明朗!周琦赵睿领衔:杨瀚森缺席赵继伟落选

篮球快餐车
2025-11-04 01:37:59
9-8、5-4!女足世界杯杀疯了:法国+意大利爆冷出局,4强对阵如下

9-8、5-4!女足世界杯杀疯了:法国+意大利爆冷出局,4强对阵如下

大秦壁虎白话体育
2025-11-03 09:25:18
律师行业崩了,近七成同行活得像行尸走肉

律师行业崩了,近七成同行活得像行尸走肉

麦小柒
2025-10-31 20:53:15
这是85岁的李讷近照,注意看她的坐姿,终于知道她为何没去纪念堂

这是85岁的李讷近照,注意看她的坐姿,终于知道她为何没去纪念堂

文史微鉴
2025-10-13 09:56:25
11月,使劲吃这菜,一通便,二降火,三润肤,四强免疫,别不懂吃

11月,使劲吃这菜,一通便,二降火,三润肤,四强免疫,别不懂吃

阿龙美食记
2025-11-01 14:17:02
被柯志恩这波操作看懵:边喊“九二共识”,边护“台独”沈伯洋?

被柯志恩这波操作看懵:边喊“九二共识”,边护“台独”沈伯洋?

爱意随风起呀
2025-11-04 01:35:06
一年左右跌了300万,在全上海,这是一个非常危险的信号

一年左右跌了300万,在全上海,这是一个非常危险的信号

流苏晚晴
2025-10-30 18:08:51
绿洲珠宝行血案,浙江6任厅长追凶22年,抓到嫌犯后大家都愣住了

绿洲珠宝行血案,浙江6任厅长追凶22年,抓到嫌犯后大家都愣住了

崖边行
2025-06-27 21:11:22
美国政府都“关门”一个多月了,为啥美国人却一点都不慌呢?

美国政府都“关门”一个多月了,为啥美国人却一点都不慌呢?

翻开历史和现实
2025-11-02 23:09:19
大同四中抢钥匙工作人员被曝是副校长,学校称这是正常管理

大同四中抢钥匙工作人员被曝是副校长,学校称这是正常管理

映射生活的身影
2025-11-02 22:37:28
全红婵首战比赛,恩师何威仪紧跟婵宝身后,陈若琳一脸宠溺看婵宝

全红婵首战比赛,恩师何威仪紧跟婵宝身后,陈若琳一脸宠溺看婵宝

阿纂看事
2025-11-03 10:54:52
在家突发心梗别乱来!医生教你黄金5分钟自救法,关键能保命

在家突发心梗别乱来!医生教你黄金5分钟自救法,关键能保命

袁医生课堂
2025-10-31 18:50:24
台湾名嘴吴子嘉:民进党提名的2026年县市候选人一定会大败

台湾名嘴吴子嘉:民进党提名的2026年县市候选人一定会大败

总在茶余后
2025-11-04 00:38:55
太烂了!汤普森发飙!4冠神射手断崖式下滑

太烂了!汤普森发飙!4冠神射手断崖式下滑

篮球实战宝典
2025-11-03 09:46:00
2025-11-04 03:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11635文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

日本组建特种作战旅 主要面向海外作战

头条要闻

日本组建特种作战旅 主要面向海外作战

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

艺术
教育
亲子
本地
公开课

艺术要闻

这21位欧美女神,惊艳得让人窒息!

教育要闻

康熙身边的洋顾问

亲子要闻

接受孩子的天性,让孩子自然发展,多看电子产品没什么问题

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版