谢赛宁、李飞飞、LeCun联手提出多模态LLM新范式，空间超感知登场|智能体|深度思考模型

分享至

机器之心报道

编辑：杜伟、+0

纽约大学助理教授谢赛宁新作又来了，合著者还有李飞飞、Yann LeCun。

这次的成果名为「Cambrian-S」，根据谢赛宁的说法，它既是一种观点，也是一个数据集、一个基准或者一个模型，代表其迈出了探索视频空间超感知的第一步。

从名称上来看，Cambrian-S 是谢赛宁团队去年研究成果「Cambrian-1」的延续。Cambrian-1 是一个关于图像 MLLM 的开放项目，旨在让 AI 获得强大的视觉表征学习能力。具体详见：寒武纪 1 号诞生：谢赛宁、Yann LeCun 团队发布最强开源多模态 LLM

在构建 Cambrian-1 之后，团队并没有立即扩展到 Cambrian-2 或 3，而是停下来思考以下三个问题：1）什么才是真正的多模态智能？2）LLM 范式对感知建模是否真的合适？3）为什么人类的感知如此轻松、直觉，却又如此强大？

在思考这些问题下，他们意识到某种根本性的东西缺失了，因此认为在构建「超级智能」之前，必须先构建「超感知」（supersensing）

那么，如何定义超感知呢？在他们的语境中，超感知不是指更先进的传感器或更好的摄像头，而是指一个数字生命体如何真正体验世界 —— 它能够吸收无尽的输入流，并从中不断学习。超感知是智能的一部分，就像眼睛是大脑感知外部世界的那部分。你不需要感知就能解决代码或数学问题，但是如果 AI 要在现实世界中成为智能体，它就必须具备感知建模能力。

更具体地讲，谢赛宁团队划分了多模态智能从现代到未来的发展路径：

0 仅语言理解（linguistic-only understanding）：没有感知能力，推理局限于文本和符号。当前的多模态大模型虽然已超越此阶段，但仍保留其偏向。
1 语义感知（semantic perception）：将像素解析为对象、属性与关系，对应于当前多模态模型强大的「看图说话」能力。
2 流式事件认知（streaming event cognition）：处理实时无边界的输入流，主动理解并响应持续发生的事件，这与当前让多模态模型成为实时助手的努力相契合。
3 隐式 3D 空间认知（implicit 3D spatial cognition）：将视频理解为 3D 世界的投影。智能体必须知道有哪些东西、它们在何处、如何相互关联以及这些关系如何随时间变化。目前的多模态模型在这方面仍然极其有限。
4 预测性世界建模（predictive world modeling）：大脑通过「无意识推理」来预测潜在的世界状态，基于先验期望进行判断。不过，当前的多模态系统还缺乏这种能够预测未来状态、保持持续记忆、进行推理与规划的内部模型。

要研究这一切，视频是终极媒介。视频是人类体验世界的方式，也是人们真实生活经验的直接投影。

图 1

团队尝试了一种全新的原型 —— 预测感知（predictive sensing），在 Cambrian-S 上训练了一个潜变量帧预测（LFP）头。在推理过程中对「惊讶度」（surprise）进行估计，并以两种方式加以利用：1）surprise-driven 的记忆管理 —— 压缩或跳过不令人惊讶的帧，将算力集中在令人惊讶的帧上；surprise-driven 的事件分割 —— 利用惊讶值的峰值来检测事件边界或场景变化。

通过利用这种内部预测模型产生的信号，团队在空间认知任务上看到了令人鼓舞的提升。这虽然只是一个玩具级的预测世界模型，但借助这种机制，团队的中小型模型在新提出的VSI-Super（Visual-Spatial Intelligence）基准上超越了 Gemini。

谢赛宁表示，这是一篇很长的论文，但其中有许多非常有趣的细节。如果你正在研究视频多模态模型，这篇论文或许值得一读。虽然并不确定团队的方向是否正确，但他确信当下的范式还远远不够。

论文标题：Cambrian-S: Towards Spatial Supersensing in Video
论文地址：https://arxiv.org/pdf/2511.04670
项目主页：https://cambrian-mllm.github.io/
代码地址：https://github.com/cambrian-mllm/cambrian-s

接下来看论文细节。

基准测试空间超感知

为追求「空间超感知」奠定基础，首先需要确定如何衡量该能力。研究者对这一能力的基准测试进行了两部分研究。

研究者首先审计了一套流行的视频 MLLM 基准。其分析（图 3）显示，现有基准绝大多数侧重于语言理解和语义感知，而忽视了「超感知」所需的更高级空间和时间推理。

图 3

为解决这一关键差距，该研究接着引入了 VSI-Super。这是一个新的基准，专门用于在任意长的流式场景中探测空间智能的这些更困难、更连续的方面。

本文的其余部分将使用此基准来测试当前 MLLM 范式的极限。

解构现有的视频基准

近年来 MLLM 的进步导致了视频问答（Video-QA）基准的激增。然而，一个关键问题随之产生：现有基准在多大程度上真正检验视觉感知能力，而不仅仅是测试语言先验？

该研究的诊断测试通过改变视觉输入的丰富性和文本提示的信息量，试图解开模型对视觉感知与语言先验的依赖关系。那些仅靠纯文本输入（如字幕或「盲」MLLM）就能解决的基准，更偏向于检验语言理解；而需要多帧输入才能回答的问题，则要求真正的视觉感知。

研究者使用一个基于图像的 MLLM Cambrian-1 进行评估，此举旨在探测潜在的任务需求，而不将其与特定视频架构和后训练方法的能力相混淆。

研究者为向 Cambrian-1 模型输入视频设立了几种实验条件：

Multiple Frames (多帧): 模型处理从视频片段中均匀采样的 32 帧。这是文献中表示视频输入的标准方法。
Single Frame (单帧): 模型仅处理给定视频片段的中间帧。此条件测试对最少的、上下文核心的视觉信息的依赖程度。
Frame Captions (帧字幕): 模型不接收视频帧，而是接收对应于相同 32 帧均匀采样图像的字幕。此条件旨在揭示在没有低层感知基础的情况下，任务的可解决程度。使用 Gemini-2.0-Flash API 来为视频帧重新生成字幕。

为了在这些条件下对性能进行情境化分析，该研究还引入了两个基线：

Blind Test (盲测): 模型仅使用任务的问题来尝试解答。所有视觉输入都被忽略，也不使用视觉字幕。该基线测量模型基于其预先存在的知识、语言先验以及基准问题中任何潜在偏见的性能。
Chance Acc (随机准确率): 这代表了特定任务格式（例如，多项选择题）通过随机猜测可实现的准确率，作为性能的下限。

图 2 (a-c) 的结果表明，Cambrian-1 作为一个未经任何视频后训练的、基于图像的 MLLM，可以在许多基准上达到合理的性能。这表明，这些基准所针对的大部分知识，都可以通过标准的单图像指令调优管线来获取。然而，在 VSI-Bench 和 Tomato 这两个数据集上，该模型的性能低于随机水平，因为它们分别需要真正的视频感知和对高帧率视频的细粒度理解。

使用文本字幕代替视觉输入也产生了显著的性能提升，在 EgoSchema、VideoMME、LongVideoBench、VideoMMMU、Perception Test 和 MVBench 等基准上，其准确率超过随机水平 20% 以上（图 2 i）。在将基准性能与「盲测」结果进行比较时，也可以得出类似的结论（图 2 d, f）。这种性能表现意味着，这些基准主要探测的是可从视频内容的文本摘要中推断出的能力。

图 2

解读使用「多帧」和「帧字幕」之间的性能差异（图 2 j），一个显著的正差值（偏向于多帧输入）标志着该基准对精细视觉感知的需求。相反，一个很小或负的差值（更偏向于「帧字幕」）则表明其具有更强的以语言为中心的性质。研究者的分析将 VideoMMMU、EgoSchema、VideoMME、Perception Test 和 LongVideoBench 归于后一类，表明它们可能更依赖于语言理解而非视觉提示。一个显著的例外是 VSC，它对当前的 MLLM 来说是如此具有挑战性，以至于所有三种输入条件都产生接近于零的性能，从而排除了它们之间任何有意义的比较。

现有的基准绝大多数侧重于语言理解和语义感知，而忽视了「超感知」所需的更高级的空间和时间推理。

研究者希望强调基准测试中固有的挑战，以及创建一个单一的、包罗万象的基准来评估每一种能力是不切实际的。例如，对语言先验的依赖不应仅仅被视为一个缺点，因为获取丰富的世界知识并对其进行有效检索在许多场景中无疑是有益的。研究者认为，视频基准不应被视为衡量一个单一、统一的「视频理解」概念。相反，它们的设计和评估应基于它们旨在评估的特定能力。因此，上述分析旨在指导开发能更有效推动「空间超感知」发展的任务，这也将是本文余下部分的中心焦点。

VSI-SUPER：迈向多模态大型语言模型中空间超感知的基准测试

参照图 1，空间超感知要求 MLLM 具备四种关键能力：语义感知、流式事件认知、隐式 3D 空间认知和预测性世界建模

然而，正如研究者在图 2 中的分析所概述的，大多数现有的视频问答（QA）基准主要评估语言理解和语义感知方面，这些方面更具反应性，并由特定任务驱动。虽然近期的研究已开始通过持续感知、记忆架构和主动回答来解决流式事件认知问题，但这种能力通常是在测试时「工程实现」的，而非原生的模型技能。

此外，尽管空间推理偶尔会作为现有基准中的一个类别出现，但这些任务很少达到真正空间认知的水平，并且远未探测定义「超感知」的世界建模能力（图 3）。尽管 VSI-Bench 向着检验空间认知迈出了第一步，但其视频仍然是短片和单场景的，并且它既没有对问题进行形式化定义，也没有评估世界预测建模这一基本能力。

为了阐明当前 MLLM 与空间超感知之间的差距，研究者引入了 VSI-SUPER，这是一个由两部分组成的、用于连续空间感知的基准。这些任务对人类来说是直观的，通常很容易，即只需观看并持续追踪发生的事情，但它们对机器来说仍然具有惊人的挑战性。它们要求跨越无界的空间视频，选择性地过滤和结构化地积累视觉信息，以保持连贯的理解并回答问题。重要的是，它们能够抵御「暴力」的上下文扩展，暴露了对真正空间推理的需求。下面将详细介绍这两个组成部分。

VSI-SUPER Recall (VSR)：长时程空间观察与回忆

VSR 基准要求 MLLM 观察长时程的时空视频，并按顺序回忆出一个异常物体的位置。如图 4 所示，为了构建这个基准，人类标注者使用图像编辑模型（即 Gemini）将令人惊讶或不合时宜的物体（例如，一只泰迪熊）插入到一个室内环境的 walkthrough 视频的四个不同帧（和空间位置）中。

图 4

然后将这个编辑过的视频与其他类似的房间游览视频拼接起来，创建一个任意长的连续视觉流。这项任务类似于语言领域中常用于压力测试 LLM 长上下文能力的「大海捞针」（NIAH）测试。类似的 NIAH 设置也已被提议用于长视频评估。

然而，与那些插入不相关文本片段或帧的基准不同，VSR 通过帧内编辑保持了「针」的真实感。它通过要求顺序回忆（这实际上是一个多跳推理任务）进一步扩展了挑战，并且在视频长度上保持了任意的可扩展性。为了全面评估模型在不同时间尺度上的性能，该基准提供了五种时长：10、30、60、120 和 240 分钟。

VSI-SUPER Count (VSC): 变化视角和场景下的持续计数。

测试 MLLM 在长篇空间视频中持续积累信息的能力。为了构建 VSC，研究者拼接了来自 VSI-Bench 的多个房间游览视频剪辑，并要求模型计算所有房间中目标物体的总数（见图 5）。

图 5

这种设置具有挑战性，因为模型必须处理视角变化、重复目击和场景转换，同时还要保持一个一致的累积计数。对人类来说，计数是一个直观且可泛化的过程。一旦理解了「一」的概念，将其扩展到更大的数量是很自然的。相比之下，正如研究者稍后将展示的，当前的 MLLM 缺乏真正的空间认知，并且过度依赖于学到的 statistical patterns（统计模式）。

除了标准评估（即在视频结束时提问），研究者还在多个时间戳查询模型，以评估其在流式设置中的性能，其中 VSC 的正确答案会随时间动态演变。为了检验长期一致性，VSC 包括四种视频时长：10、30、60 和 120 分钟。对于这项定量任务，研究者使用平均相对准确率（MRA）指标来报告结果，这与 VSI-Bench 的评估协议一致。

最先进的模型在 VSI-SUPER 上表现不佳。为了测试 VSI-SUPER 是否对前沿 MLLM 构成了真正的挑战，研究者评估了最新的 Gemini-2.5-Flash。

如表 1 所示，尽管上下文长度达到了 1048576 个 token，该模型在处理两小时视频时仍达到了其上下文限制。这凸显了视频理解的开放式（open-ended）特性，即连续的流实际上需要一个「无限输入，无限输出」的上下文，并且可以任意增长，这表明仅仅扩大 token 数量、上下文长度或模型大小可能还不够。

尽管研究者的基准是合成的，但它反映了空间超感知中的一个真正挑战：人类能毫不费力地整合和保留来自持续数小时或数年的感官体验中的信息，但当前模型缺乏用于持续感知和记忆的相应机制。Gemini-2.5-Flash 在以语义感知和语言理解为重点的视频基准（如 VideoMME 和 VideoMMMU）上表现出强劲性能，实现了约 80% 的准确率。

然而，即使是在其上下文窗口之内的 60 分钟 VSI-SUPER 视频上，VSR 和 VSC 的性能仍然有限 —— 分别只有 41.5 和 10.9。如图 6 所示，模型预测的物体计数未能随视频长度或物体的真实数量而扩展，而是饱和在一个很小的恒定值，这表明其在计数能力上缺乏泛化性，并依赖于训练分布的先验。

VSI-SUPER 如何挑战当前范式。尽管任务设置很简单，但 VSI-SUPER 带来的挑战超越了空间推理本身，揭示了当前 MLLM 范式的根本局限性。

VSI-SUPER 任务挑战了那种认为「仅靠规模扩张就能保证进步」的信念。

通过允许模拟流式认知动态的任意长度的视频输入，VSI-SUPER 被有意构建为超越任何固定的上下文窗口。这种设计表明，逐帧的 tokenization 和处理不太可能成为一个计算上可行的长期解决方案。人类通过选择性地关注并（通常是无意识地）仅保留一小部分感官输入，来高效地、自适应地解决此类问题。这种预测性和选择性机制是人类认知的核心，在当前的 MLLM 中仍然缺失，但它对于一个预测性世界模型至关重要。

VSI-SUPER 任务要求在测试时泛化到新的时间和空间尺度。

例如，VSC 要求在任意长的视频中进行计数，这类似于理解了计数概念的人类，可以将其扩展到任何数量。关键不在于维持一个极长的上下文窗口 —— 人类并不会保留扩展视觉体验中的每一个视觉细节 —— 而在于学习计数这一过程本身。预测性感知通过将连续的视觉流分割成连贯的事件，并利用「惊讶度」的时刻来施加时间结构，从而促进了这一点。这种分割充当了一种「分而治之」的机制，允许模型在动态变化的场景中决定何时开始、继续或重置行为。

总之，这些挑战跨越了计算效率、泛化能力以及诸如无意识推理和预测性感知等认知机制，呼唤着一场范式转变。未来的模型不应仅仅依赖于扩展数据、参数或上下文长度，而应学习能够在一个跨越时空、无限展开的视觉世界中进行感知和预测的内部世界模型。

为了进一步推动这一范式转变，下一节将探讨在当前范式内，通过改进工程设计和有针对性的数据筛选，还能取得多大进展。研究者将评估现有的 MLLM 框架是否能被改造以应对 VSI-SUPER 带来的挑战。这些努力虽然在现行框架的限制内运作，但对于为下一代空间超感知模型构建数据和实证基础而言，是必不可少的。

预测性感知：一种新范式

Gemini-2.5-Flash (表 1) 和 Cambrian-S (表 7) 在 VSI-SUPER 上的性能都急剧下降，这揭示了一个根本性的范式差距：仅靠扩展数据和上下文不足以实现超感知。

研究者提出将预测性感知作为一种前进的路径，即模型学习预测其感知输入，并构建内部世界模型来处理无界的视觉流。这一设计受到了人类认知理论的启发。与当前标记化并处理整个数据流的视频多模态模型不同，人类的感知（和记忆）具有高度选择性，只保留一小部分感知输入。大脑不断更新内部模型以预测传入的刺激，压缩或丢弃那些不贡献新信息的、可预测的输入。相反，违背预测的意外感知信息会产生「惊讶度」，并驱动注意力和记忆编码的增强。

研究者通过一种自监督的下一潜在帧预测方法来构建这一概念的原型。由此产生的预测误差可作为两个关键能力的控制信号：用于选择性保留重要信息的内存管理，以及用于将无界流分割成有意义的块的事件分割。研究者通过在 VSI-SUPER 上的两个案例研究证明，该方法显著优于强大的长上下文和流式视频模型基线。

通过潜在帧预测实现预测性感知

研究者通过一个轻量级的、称为潜在帧预测 (LFP) 头的自监督模块来实现研究者的预测性感知范式，该模块与主要的指令微调目标联合训练。这是通过修改第 4 阶段的训练方案来实现的：

潜在帧预测头。研究者引入一个 LFP 头，这是一个与语言头并行运行的两层 MLP，用于预测后续视频帧的潜在表征。该架构如图 9 左上角所示。

图 9

学习目标。为了优化 LFP 头，研究者引入了两个辅助损失：均方误差 (MSE) 和余弦距离，用于衡量预测的潜在特征与下一帧的真实特征之间的差异。一个权重系数用于平衡 LFP 损失与主要的指令微调下一令牌预测目标。
LFP 训练数据。研究者使用来自 VSI-590K 的一个 290K 视频子集来扩充第 4 阶段的数据，该子集专用于 LFP 目标。与指令微调不同，这些视频以 1 FPS (每秒帧数) 的恒定速率采样，以确保潜在帧预测具有均匀的时间间隔。

在修改后的第 4 阶段微调期间，研究者以端到端的方式联合训练连接器、语言模型以及语言头和 LFP 头，同时保持 SigLIP 视觉编码器冻结。所有其他训练设置与原始的第 4 阶段配置保持一致。为简洁起见，在后续实验中，使用 LFP 目标联合优化的模型仍被称为 Cambrian-S。

推理：通过预测误差估计「惊讶度」。在推理过程中，研究者利用训练好的 LFP 头来评估每个传入视觉感知输入的「惊讶度」程度。在心理学中，该框架通常被称为违反预期 (VoE) 范式。具体来说，视频帧以恒定的采样率（除非另有说明，否则为 1 FPS）输入到 Cambrian-S 中。模型不断预测下一帧的潜在特征，随后研究者测量模型的预测与该传入帧的实际真实特征之间的余弦距离。

该距离可作为惊讶度的定量测量：值越大，表示偏离模型习得预期的程度越大。这种惊讶度分数可作为后续下游任务的强大、自监督的指导信号。

案例研究 I：用于 VSI-SUPER 计数的惊讶度驱动的连续视频分割

超感知的更严峻测试不止于召回能力，还涉及模型解释感知输入、在不同环境中导航以及执行累积的多跳推理的能力。

惊讶度驱动的事件分割。一个事件可以被理解为一个时空上连贯的经验片段。在空间超感知的背景下，一个事件对应于置身于特定空间并感知其环境的连续体验。该定义强调，真实的感知体验通常被组织成局部连贯的片段 —— 即感知、空间和时间特征保持相对稳定或一致的情节。因此，事件分割是基于这种连贯性的变化，将连续的感知输入流解析为离散的、有意义的单元的过程。这种分割对于推理和行为至关重要：它允许智能体（生物的或人工智能的）形成经验的结构化表征，检测发生重大变化的边界，并相应地更新对环境的预测。最近的研究强调，预测误差和工作记忆 / 上下文的变化是驱动分割的两种可能机制。

在 VSI-SUPER 计数 (VSC) 基准中，研究者研究了一个简单的设置，其中使用惊讶度来分割连续的视觉输入，将场景变化识别为自然断点，从而将视频流划分为空间上连贯的片段。这种方法也类似于人类解决问题的方式：当在广大区域内计算物体时，人们通常一次只关注一个部分，然后再合并结果。这种行为也与「门口效应」有关，即穿过门口或进入一个新房间会在记忆中创建一个自然边界。如图 12 所示，模型在事件缓冲区中不断累积帧特征。当检测到高惊讶度帧时，缓冲的特征被汇总以产生一个片段级别的答案，然后清除缓冲区以开始新的片段。这个循环一直重复直到视频结束，之后所有片段的答案被聚合适形成最终输出。

图 12

结果。Gemini-1.5-Flash 在 VSC 上的表现接近零（图 13a），显示了该任务的难度。尽管 Gemini-2.5-Flash 在 10 分钟视频上取得了更好的结果，但其性能在更长的视频上迅速下降。相比之下，Cambrian-S (带惊讶度分割) 使用的惊讶度驱动的事件分割方法在所有视频长度上都取得了更高、更稳定的性能。当使用真实的场景切换来分割视频时（即 Cambrian-S 带 GT 分割），性能进一步提高，这代表了一个近似的上界。

图 13

图 14 的更深入分析显示，Gemini-2.5-Flash 的预测被限制在一个有限的范围内，并且不会随着视频中出现更多物体而扩展。相比之下，Cambrian-S (带惊讶度分割) 产生的计数虽然尚未完全准确，但与真实物体数量表现出更强的相关性，表明其具有更好的泛化能力。

图 14

惊讶度测量的消融实验。研究者将研究者的惊讶度驱动方法与使用相邻帧特征相似度的基线进行了比较（图 13b）。对于这两种方法，研究者都报告了经过超参数调优后的最佳结果。与研究者在 VSR 中的观察一致，在所有视频时长上，使用预测误差作为惊讶度的测量标准，其性能始终明显优于外观相似度。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.