网易首页 > 网易号 > 正文 申请入驻

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场

0
分享至


新智元报道

编辑:定慧 好困

【新智元导读】当AI不再对着文字死记硬背,而是学会在视频里对人类世界进行超感知,这套全新范式会不会撬开AGI的大门?

在构建超级智能前,需要什么?

这是目前AI领域最前沿,最有哲学意味的问题。这个问题的答案甚至决定了未来人类资源的投入走向。

最近,Yann LeCun、李飞飞和谢赛宁联手发了一篇论文——「Cambrian-S:迈向视频中的空间超感知」。


论文:https://arxiv.org/abs/2511.04670

代码:https://github.com/cambrian-mllm/cambrian-s

模型:https://huggingface.co/collections/nyu-visionx/cambrian-s-models

数据:https://huggingface.co/datasets/nyu-visionx/VSI-590K

基准:https://huggingface.co/collections/nyu-visionx/vsi-super

非常罕见,三位大佬共同署名,而且三人中两位(LeCun和李飞飞)都是明确的世界模型布道者,而LeCun更是一位LLM批评者。

他在更多场合还广泛批评目前的基于LLM的AI底层技术,这个技术无法实现AGI。可想而知,这篇论文的含金量!


真正意义上的超感官智能,不仅需要具备看见的能力,更要能通过构建内部世界模型,主动地预判、筛选并组织其所接收的感官信息


谢赛宁说关于对这个问题的思考,甚至让他们重构了此前基础的研究。

去年,他们就构建了,这是针对图像多模态模型的一次开放性探索。

但之后团队并没有直接扩大规模去构建Cambrian-2或3,而是停下来反思:


  • 真正的多模态智能意味着什么?

  • 大语言模型范式对于感官建模而言,真的合理吗?

  • 以及,为什么人类的感知如此毫不费力、如此直观,却又如此强大?


一些根本性的东西缺失了。

简单说就是,这三位巨头认为LLM目前虽然能力很强,但依然无法像人类一样感知这个世界,既然无法感知,代表LLM是有缺陷的。

谢赛宁在博客中表示,在构建出「超感知」之前,不可能真正构建出「超级智能」。

那么,什么是超感知 (supersensing)


在团队看来,「超感知」并非指更高级的传感器或更好的摄像头。

它关乎一个数字生命如何真正地体验世界——吸收源源不断的输入流,并从中学习。

超感知是智能的一部分,正如眼睛是大脑触及外部世界的那一部分。解决编程和数学问题时不需要感知能力。

但身处现实世界中的AI智能体,则需要感官建模!

谢赛宁还引用了卡帕西所说,感官建模或许就是AI智能体所需要的一切。


视频空间超感知

如何让AI能够真正地感知人类的世界?


为了更具体地阐述,团队认为以下的分类法能够清晰地描绘出一条演进路径——从团队当前拥有的技术,到团队下一步真正需要构建的目标。


  • 0. (纯语言理解)

    不具备感官能力;推理仅限于文本和符号。当前的多模态大语言模型虽已超越此阶段,但仍残留着其偏见的痕迹。

  • 1. 语义感知

    将像素解析为物体、属性和关系。这对应于多模态大语言模型目前强大的「看图说话」能力。

  • 2. 流式事件认知

    处理实时的、无限制的数据流,同时主动地解读并响应持续发生的事件。这与当前将多模T态大语言模型打造为实时助手的努力方向一致。

  • 3. 隐式3D空间认知

    将视频理解为三维世界的投影。智能体必须知道「什么东西」在「哪里」,它们之间「如何关联」,以及空间布局「如何随时间变化」。当今的多模态模型在这一方面的能力仍然极其有限。

  • 4. 预测性世界建模

    大脑通过基于先验期望来预测潜在的世界状态,从而进行「无意识推断」。当前的多模态系统缺乏一个能够预测未来状态、保持长期记忆或进行推理和规划的内部模型。


要研究这一切,视频是最佳的媒介——它是人类每天体验世界的方式,是人类生活经验的直接投影。

如何判断模型达到超感知能力

首要问题(始终)是基准测试。

谢赛宁说他也很钟爱多模态大语言模型,但若缺乏开放和批判性的审视,团队可能会在错误的方向上进行优化。

许多视频基准测试甚至不需要真正的感知能力;正如团队所展示的,仅仅依靠单帧图像或字幕就能获得高分。

谢赛宁也提到了现在的玩法是:

科技公司构建强大的语言模型 → 基准测试奖励的是模型的文本记忆能力 → 模型通过扩大LLM的规模获得更高分数 → 其他公司纷纷效仿

这个循环不断持续,直到团队意识到,召唤出的「幽灵」在感知能力上,仍然落后于一只猫,或一只松鼠。

莫拉维克悖论再次应验:对人类而言毫不费力的感知能力,对模型来说却难如登天。


这不仅仅是一个科学问题。

真正的价值来自于那些能够在现实世界中感知和行动的模型:

从工厂到农场,再到医院……从机器人到那些人们期望能作为个人助理佩戴的AI眼镜。

仅靠大语言模型是无法实现这一切的。

超级智能,始于超感知。


超感知的关键一环是视觉空间智能

谢赛宁团队之前有一个VSI-Bench基准用于测试空间推理,但其中的视频太短,任务也过于简单。

所以,团队打造了一个看似更简单、实则更难的版本:VSI-Super

其中有两个任务。

· 任务1:VS

长时程空间记忆。团队使用扩散模型编辑视频,插入一些不合上下文但视觉上融合的物体(而不是随机的「大海捞针」式物体)。


· 任务2:VSC

持续计数。在变化的视角和场景下进行持续计数……模型只需数出它们所看到的东西。


一个测试考察对物体顺序的记忆力,另一个则考察计数能力。

任务简单,可流式处理——还能有比这更容易的吗?

然而,顶尖的大语言模型却纷纷败下阵来。

而且,这不仅仅是长上下文(long context)的问题。

为什么?

谢赛宁解释道(其实还是验证了莫拉维克悖论):


  • 视频可以任意长。这对于对人类来说,这很简单。人类的感官能处理「无限的Token」。这虽然是一个有损的过程,但人们能记住几天甚至几周的经历。模型却做不到。

  • 它们(LLM)缺乏真正的空间认知和泛化能力。

    人类可以一直数下去,而模型不行。


以顶尖的Gemini 2.5模型为例,它只能数到几十个。

即使视频更长、物体更多,它也会停止计数。 这充分暴露了其训练数据的分布特点。


当然,你可能会问——这难道不只是一个数据或规模化的问题吗?

就像Scaling Law一样,继续增加数据量和增大训练量,不就可以解决吗?

谢赛宁表示,部分是因为规模这个原因。

但这也是他们构建全新的Cambrian-S视频多模态大语言模型(MLLM)系列的原因。

团队想要挑战当前范式(LLM)的极限。

谢赛宁、李飞飞和LeCun,他们认为数据和规模化对于超感知至关重要(但仅有这些还不够)。

核心问题在于:目前缺乏真正用于训练空间认知的有效数据。

所以团队构建了一个名为VSI-590K的数据集。


它包含59万个训练样本,来源包括:带有3D标注的室内环境第一人称探索视频、来自模拟器的视频,以及使用VGGT等视觉工具进行伪标注的YouTube视频。

团队探索了多种后训练方案、数据混合策略以及一系列工程细节,训练了从5亿到70亿参数不等的模型。

结果显示出强大的空间推理能力——性能比团队的基座MLLM提升高达 30%。即使是最小的模型也表现得相当出色。


已经将数据和模型全部开源。

相信它们将在许多任务中发挥作用。但要明确一点——这仍然无法解决 VSI-Super 基准测试的挑战。

而且他们越来越坚信:沿用大语言模型的老路来构建多模态模型,并非通往超感知的终极之道。(其实就是LeCun在多个场合下所说的LLM并不会通向AGI。)

全新原型,全新范式

展望未来,团队正在开发一种全新原型——团队称之为「预测性感知」。

在这篇论文中引用了大量来自认知科学和发展心理学的研究成果。

越是深入研读,就越为人类和动物的感知能力而惊叹。

人类的视觉系统拥有极高的带宽,却又有着惊人的效率。


每只眼睛的600万个视锥细胞可以传输约1.6 Gbit/s的数据,然而大脑仅用约10 bits/s的信息来指导行为。

大部分感官数据都被过滤和压缩,整个过程都在自动运行——你甚至毫无察觉。

人类的大脑是如何做到这一点的?

一个主流理论认为:

你的大脑在后台运行一个「预测性世界模型」来进行感知,它不断地预测未来,并将其与实际发生的情况进行比对。


  • 如果预测误差很小→ 说明一切尽在预料之中,可以忽略

  • 如果预测误差很大→ 这就是「惊异」,大脑会集中注意力,并更新记忆。


目前的大语言模型中,没有任何与之相当的机制。

为验证这一想法,团队在Cambrian-S模型之上,训练了一个潜在帧预测 (Latent Frame Prediction, LFP) 模块。(过去人类模仿鸟类、蝙蝠发明了飞机和超声波,这次AI要模仿人类了)

团队在推理过程中估算「惊异度」,并将其应用于两个方面:

  • 惊异度驱动的记忆管理—— 压缩或跳过无意外的帧,将计算资源集中在有意外的帧上。

  • 惊异度驱动的事件切分—— 利用「惊异度」的峰值来检测事件边界或场景变化。

通过利用这个内部预测模型提供的信号,已经在空间认知任务上看到了喜人的性能提升。

这目前只是一个简化的预测性世界模型原型——但仅凭这一机制,小模型就在VSI-Super评测基准上超越了Gemini。


谢赛宁说虽然这篇论文很长,但保证——其中有很多团队认为非常有趣的细节。

如果你也在研究视频多模态模型,那么这篇论文很值得一读。

我不敢说团队的方法就是正确的道路——但我确信,当前的范式是远远不够的,而开放科学、开放研究,才是唯一的出路。

值得一提的是,团队还同步发布了由相关的两个相关项目:

一项关于多模态基准设计的研究——如何对基准进行压力测试,并有效消除语言偏见。


一份经验总结,关于团队如何构建模拟器来收集空间感知视频(Cambrian-S 使用的正是这些数据)。


作者介绍


共同一作Shusheng Yang是纽约大学计算机科学专业的博士生,指导老师是谢赛宁教授。

此前,他在华中科技大学获得计算机课学士学位和计算机视觉与深度学习硕士学位。


共同一作Jihan Yang,是纽约大学库朗研究所的一名博士后副研究员,师从谢赛宁教授。

此前,他在香港大学获得博士学位,在中山大学获得学士学位。

他的研究兴趣主要集中在机器学习和计算机视觉领域,重点探索多模态大语言模型在推理、智能体、长视频理解、空间智能和统一模型方面的研究,以及它们在现实世界中的应用与落地。


核心作者黄品志是纽约大学本科生,师从谢赛宁教授。

参考资料:

https://cambrian-mllm.github.io/cambrian-s/

https://arxiv.org/abs/2511.04670

https://x.com/sainingxie/status/1986685042332958925

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡地亚这一夜,珠圆玉润的郭晶晶,秒了内娱一堆“排骨精”

卡地亚这一夜,珠圆玉润的郭晶晶,秒了内娱一堆“排骨精”

白面书誏
2025-11-10 12:25:56
一场台风,让菲律宾看明白了,马尼拉时报发声:菲律宾人,回家吧

一场台风,让菲律宾看明白了,马尼拉时报发声:菲律宾人,回家吧

李子橱
2025-11-09 21:10:03
惊艳全球!新机曝光:10000mAh+骁龙8 Gen5+2亿潜望长焦!

惊艳全球!新机曝光:10000mAh+骁龙8 Gen5+2亿潜望长焦!

科技堡垒
2025-11-09 11:58:07
悲剧!宝马车女司机被侧翻的渣土车砸死,家里有孩子在等她

悲剧!宝马车女司机被侧翻的渣土车砸死,家里有孩子在等她

魔都姐姐杂谈
2025-11-09 19:09:17
持"黑人智商低于白人"观点的“DNA之父”辞世 生前被剥夺所有荣誉

持"黑人智商低于白人"观点的“DNA之父”辞世 生前被剥夺所有荣誉

深度报
2025-11-09 22:53:16
“人民咖啡馆”被央媒点名批评后紧急改名,记者实探:店铺已开始整改,店名被遮盖

“人民咖啡馆”被央媒点名批评后紧急改名,记者实探:店铺已开始整改,店名被遮盖

极目新闻
2025-11-08 13:20:10
赵少康亮票案是“奉旨办案”?罗智强:民进党还不甘愿收手

赵少康亮票案是“奉旨办案”?罗智强:民进党还不甘愿收手

海峡导报社
2025-11-09 16:23:08
特斯拉 Model Y L 交流外供电适配器上架,售价 599 元

特斯拉 Model Y L 交流外供电适配器上架,售价 599 元

IT之家
2025-11-10 10:36:07
毛新宇少将担任副部长!妻子刘滨担任扇子协会会长

毛新宇少将担任副部长!妻子刘滨担任扇子协会会长

李昕言温度空间
2025-11-09 14:50:17
重磅:乌克兰摧毁俄罗斯两大发电厂!对能源系统的打击升级

重磅:乌克兰摧毁俄罗斯两大发电厂!对能源系统的打击升级

项鹏飞
2025-11-09 20:32:28
200块一碗的天价麻辣烫,让老外重新认识中餐

200块一碗的天价麻辣烫,让老外重新认识中餐

酷玩实验室
2025-11-10 11:59:56
再遭失利,内马尔不满自己被换下并直接返回更衣室

再遭失利,内马尔不满自己被换下并直接返回更衣室

懂球帝
2025-11-10 09:58:41
长沙不雅视频后续!女医生同款睡裙超22万人购买,幕后偷拍者曝光

长沙不雅视频后续!女医生同款睡裙超22万人购买,幕后偷拍者曝光

壹月情感
2025-11-09 18:01:35
带伤出战!打满40分钟!哈登真是连败战犯吗?

带伤出战!打满40分钟!哈登真是连败战犯吗?

篮球盛世
2025-11-10 18:12:44
“最帅展昭”离世,享年58岁!

“最帅展昭”离世,享年58岁!

黎兜兜
2025-11-08 21:22:56
助攻王拉什福德再获致敬,巴萨放弃提前买断!曼联预计3000万进账

助攻王拉什福德再获致敬,巴萨放弃提前买断!曼联预计3000万进账

罗米的曼联博客
2025-11-10 10:17:01
事发上海早高峰!老人被撞多处骨折,肇事者逃逸,他拿出关键证据

事发上海早高峰!老人被撞多处骨折,肇事者逃逸,他拿出关键证据

环球网资讯
2025-11-10 15:31:06
北京这一夜,妖艳四射的朱珠和巩俐,却败给了全裹出镜的郭晶晶

北京这一夜,妖艳四射的朱珠和巩俐,却败给了全裹出镜的郭晶晶

崽下愚乐圈
2025-11-10 11:22:22
中国航天员命悬一线,救援时间竟引发国际热议!

中国航天员命悬一线,救援时间竟引发国际热议!

单手搓核弹
2025-11-10 14:20:06
卫健委通报医院回应,当事人报警,涉事副院长与女医生将被问责

卫健委通报医院回应,当事人报警,涉事副院长与女医生将被问责

现代小青青慕慕
2025-11-08 05:57:56
2025-11-10 18:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13835文章数 66241关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

20年驾龄"老司机"一踩油门就失控了 新能源车企回应

头条要闻

20年驾龄"老司机"一踩油门就失控了 新能源车企回应

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

郝蕾风波升级?

财经要闻

最终,万科只成全了一个人

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

本地
家居
健康
时尚
军事航空

本地新闻

这届干饭人,已经把博物馆吃成了食堂

家居要闻

四方食事 不过人间烟火

超声探头会加重受伤情况吗?

上新|| 秋冬也可以穿的漂亮小裙子,美到心动

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版