谢赛宁×李飞飞×LeCun首次联手！寒武纪-S「空间超感知」AI震撼登场|视觉|智能体|lecun|深度思考模型

谢赛宁×李飞飞×LeCun首次联手！寒武纪-S「空间超感知」AI震撼登场

2025-11-10 13:14:45　来源: 新智元

北京举报

分享至

新智元报道

编辑：定慧好困

【新智元导读】当AI不再对着文字死记硬背，而是学会在视频里对人类世界进行超感知，这套全新范式会不会撬开AGI的大门？

在构建超级智能前，需要什么？

这是目前AI领域最前沿，最有哲学意味的问题。这个问题的答案甚至决定了未来人类资源的投入走向。

最近，Yann LeCun、李飞飞和谢赛宁联手发了一篇论文——「Cambrian-S：迈向视频中的空间超感知」。

论文：https://arxiv.org/abs/2511.04670

代码：https://github.com/cambrian-mllm/cambrian-s

模型：https://huggingface.co/collections/nyu-visionx/cambrian-s-models

数据：https://huggingface.co/datasets/nyu-visionx/VSI-590K

基准：https://huggingface.co/collections/nyu-visionx/vsi-super

非常罕见，三位大佬共同署名，而且三人中两位（LeCun和李飞飞）都是明确的世界模型布道者，而LeCun更是一位LLM批评者。

他在更多场合还广泛批评目前的基于LLM的AI底层技术，这个技术无法实现AGI。可想而知，这篇论文的含金量！

真正意义上的超感官智能，不仅需要具备看见的能力，更要能通过构建内部世界模型，主动地预判、筛选并组织其所接收的感官信息

谢赛宁说关于对这个问题的思考，甚至让他们重构了此前基础的研究。

去年，他们就构建了，这是针对图像多模态模型的一次开放性探索。

但之后团队并没有直接扩大规模去构建Cambrian-2或3，而是停下来反思：

真正的多模态智能意味着什么？
大语言模型范式对于感官建模而言，真的合理吗？
以及，为什么人类的感知如此毫不费力、如此直观，却又如此强大？

一些根本性的东西缺失了。

简单说就是，这三位巨头认为LLM目前虽然能力很强，但依然无法像人类一样感知这个世界，既然无法感知，代表LLM是有缺陷的。

谢赛宁在博客中表示，在构建出「超感知」之前，不可能真正构建出「超级智能」。

那么，什么是超感知 (supersensing)？

在团队看来，「超感知」并非指更高级的传感器或更好的摄像头。

它关乎一个数字生命如何真正地体验世界——吸收源源不断的输入流，并从中学习。

超感知是智能的一部分，正如眼睛是大脑触及外部世界的那一部分。解决编程和数学问题时不需要感知能力。

但身处现实世界中的AI智能体，则需要感官建模！

谢赛宁还引用了卡帕西所说，感官建模或许就是AI智能体所需要的一切。

视频空间超感知

如何让AI能够真正地感知人类的世界？

为了更具体地阐述，团队认为以下的分类法能够清晰地描绘出一条演进路径——从团队当前拥有的技术，到团队下一步真正需要构建的目标。

0. （纯语言理解）
不具备感官能力；推理仅限于文本和符号。当前的多模态大语言模型虽已超越此阶段，但仍残留着其偏见的痕迹。
1. 语义感知
将像素解析为物体、属性和关系。这对应于多模态大语言模型目前强大的「看图说话」能力。
2. 流式事件认知
处理实时的、无限制的数据流，同时主动地解读并响应持续发生的事件。这与当前将多模T态大语言模型打造为实时助手的努力方向一致。
3. 隐式3D空间认知
将视频理解为三维世界的投影。智能体必须知道「什么东西」在「哪里」，它们之间「如何关联」，以及空间布局「如何随时间变化」。当今的多模态模型在这一方面的能力仍然极其有限。
4. 预测性世界建模
大脑通过基于先验期望来预测潜在的世界状态，从而进行「无意识推断」。当前的多模态系统缺乏一个能够预测未来状态、保持长期记忆或进行推理和规划的内部模型。

要研究这一切，视频是最佳的媒介——它是人类每天体验世界的方式，是人类生活经验的直接投影。

如何判断模型达到超感知能力

首要问题（始终）是基准测试。

谢赛宁说他也很钟爱多模态大语言模型，但若缺乏开放和批判性的审视，团队可能会在错误的方向上进行优化。

许多视频基准测试甚至不需要真正的感知能力；正如团队所展示的，仅仅依靠单帧图像或字幕就能获得高分。

谢赛宁也提到了现在的玩法是：

科技公司构建强大的语言模型 → 基准测试奖励的是模型的文本记忆能力 → 模型通过扩大LLM的规模获得更高分数 → 其他公司纷纷效仿

这个循环不断持续，直到团队意识到，召唤出的「幽灵」在感知能力上，仍然落后于一只猫，或一只松鼠。

莫拉维克悖论再次应验：对人类而言毫不费力的感知能力，对模型来说却难如登天。

这不仅仅是一个科学问题。

真正的价值来自于那些能够在现实世界中感知和行动的模型：

从工厂到农场，再到医院……从机器人到那些人们期望能作为个人助理佩戴的AI眼镜。

仅靠大语言模型是无法实现这一切的。

超级智能，始于超感知。

超感知的关键一环是视觉空间智能

谢赛宁团队之前有一个VSI-Bench基准用于测试空间推理，但其中的视频太短，任务也过于简单。

所以，团队打造了一个看似更简单、实则更难的版本：VSI-Super。

其中有两个任务。

· 任务1：VS

长时程空间记忆。团队使用扩散模型编辑视频，插入一些不合上下文但视觉上融合的物体（而不是随机的「大海捞针」式物体）。

· 任务2：VSC

持续计数。在变化的视角和场景下进行持续计数……模型只需数出它们所看到的东西。

一个测试考察对物体顺序的记忆力，另一个则考察计数能力。

任务简单，可流式处理——还能有比这更容易的吗？

然而，顶尖的大语言模型却纷纷败下阵来。

而且，这不仅仅是长上下文（long context）的问题。

为什么？

谢赛宁解释道（其实还是验证了莫拉维克悖论）：

视频可以任意长。这对于对人类来说，这很简单。人类的感官能处理「无限的Token」。这虽然是一个有损的过程，但人们能记住几天甚至几周的经历。模型却做不到。
它们（LLM）缺乏真正的空间认知和泛化能力。
人类可以一直数下去，而模型不行。

以顶尖的Gemini 2.5模型为例，它只能数到几十个。

即使视频更长、物体更多，它也会停止计数。这充分暴露了其训练数据的分布特点。

当然，你可能会问——这难道不只是一个数据或规模化的问题吗？

就像Scaling Law一样，继续增加数据量和增大训练量，不就可以解决吗？

谢赛宁表示，部分是因为规模这个原因。

但这也是他们构建全新的Cambrian-S视频多模态大语言模型（MLLM）系列的原因。

团队想要挑战当前范式（LLM）的极限。

谢赛宁、李飞飞和LeCun，他们认为数据和规模化对于超感知至关重要（但仅有这些还不够）。

核心问题在于：目前缺乏真正用于训练空间认知的有效数据。

所以团队构建了一个名为VSI-590K的数据集。

它包含59万个训练样本，来源包括：带有3D标注的室内环境第一人称探索视频、来自模拟器的视频，以及使用VGGT等视觉工具进行伪标注的YouTube视频。

团队探索了多种后训练方案、数据混合策略以及一系列工程细节，训练了从5亿到70亿参数不等的模型。

结果显示出强大的空间推理能力——性能比团队的基座MLLM提升高达 30%。即使是最小的模型也表现得相当出色。

已经将数据和模型全部开源。

相信它们将在许多任务中发挥作用。但要明确一点——这仍然无法解决 VSI-Super 基准测试的挑战。

而且他们越来越坚信：沿用大语言模型的老路来构建多模态模型，并非通往超感知的终极之道。（其实就是LeCun在多个场合下所说的LLM并不会通向AGI。）

全新原型，全新范式

展望未来，团队正在开发一种全新原型——团队称之为「预测性感知」。

在这篇论文中引用了大量来自认知科学和发展心理学的研究成果。

越是深入研读，就越为人类和动物的感知能力而惊叹。

人类的视觉系统拥有极高的带宽，却又有着惊人的效率。

每只眼睛的600万个视锥细胞可以传输约1.6 Gbit/s的数据，然而大脑仅用约10 bits/s的信息来指导行为。

大部分感官数据都被过滤和压缩，整个过程都在自动运行——你甚至毫无察觉。

人类的大脑是如何做到这一点的？

一个主流理论认为：

你的大脑在后台运行一个「预测性世界模型」来进行感知，它不断地预测未来，并将其与实际发生的情况进行比对。

如果预测误差很小→ 说明一切尽在预料之中，可以忽略。
如果预测误差很大→ 这就是「惊异」，大脑会集中注意力，并更新记忆。

目前的大语言模型中，没有任何与之相当的机制。

为验证这一想法，团队在Cambrian-S模型之上，训练了一个潜在帧预测 (Latent Frame Prediction, LFP) 模块。（过去人类模仿鸟类、蝙蝠发明了飞机和超声波，这次AI要模仿人类了）

团队在推理过程中估算「惊异度」，并将其应用于两个方面：

由「惊异度」驱动的记忆管理—— 压缩或跳过无意外的帧，将计算资源集中在有意外的帧上。
由「惊异度」驱动的事件切分—— 利用「惊异度」的峰值来检测事件边界或场景变化。

通过利用这个内部预测模型提供的信号，已经在空间认知任务上看到了喜人的性能提升。

这目前只是一个简化的预测性世界模型原型——但仅凭这一机制，小模型就在VSI-Super评测基准上超越了Gemini。

谢赛宁说虽然这篇论文很长，但保证——其中有很多团队认为非常有趣的细节。

如果你也在研究视频多模态模型，那么这篇论文很值得一读。

我不敢说团队的方法就是正确的道路——但我确信，当前的范式是远远不够的，而开放科学、开放研究，才是唯一的出路。

值得一提的是，团队还同步发布了由相关的两个相关项目：

一项关于多模态基准设计的研究——如何对基准进行压力测试，并有效消除语言偏见。

一份经验总结，关于团队如何构建模拟器来收集空间感知视频（Cambrian-S 使用的正是这些数据）。

作者介绍

共同一作Shusheng Yang是纽约大学计算机科学专业的博士生，指导老师是谢赛宁教授。

此前，他在华中科技大学获得计算机课学士学位和计算机视觉与深度学习硕士学位。

共同一作Jihan Yang，是纽约大学库朗研究所的一名博士后副研究员，师从谢赛宁教授。

此前，他在香港大学获得博士学位，在中山大学获得学士学位。

他的研究兴趣主要集中在机器学习和计算机视觉领域，重点探索多模态大语言模型在推理、智能体、长视频理解、空间智能和统一模型方面的研究，以及它们在现实世界中的应用与落地。

核心作者黄品志是纽约大学本科生，师从谢赛宁教授。

参考资料：

https://cambrian-mllm.github.io/cambrian-s/

https://arxiv.org/abs/2511.04670

https://x.com/sainingxie/status/1986685042332958925

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.