网易首页 > 网易号 > 正文 申请入驻

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场

0
分享至


新智元报道

编辑:定慧 好困

【新智元导读】当AI不再对着文字死记硬背,而是学会在视频里对人类世界进行超感知,这套全新范式会不会撬开AGI的大门?

在构建超级智能前,需要什么?

这是目前AI领域最前沿,最有哲学意味的问题。这个问题的答案甚至决定了未来人类资源的投入走向。

最近,Yann LeCun、李飞飞和谢赛宁联手发了一篇论文——「Cambrian-S:迈向视频中的空间超感知」。


论文:https://arxiv.org/abs/2511.04670

代码:https://github.com/cambrian-mllm/cambrian-s

模型:https://huggingface.co/collections/nyu-visionx/cambrian-s-models

数据:https://huggingface.co/datasets/nyu-visionx/VSI-590K

基准:https://huggingface.co/collections/nyu-visionx/vsi-super

非常罕见,三位大佬共同署名,而且三人中两位(LeCun和李飞飞)都是明确的世界模型布道者,而LeCun更是一位LLM批评者。

他在更多场合还广泛批评目前的基于LLM的AI底层技术,这个技术无法实现AGI。可想而知,这篇论文的含金量!


真正意义上的超感官智能,不仅需要具备看见的能力,更要能通过构建内部世界模型,主动地预判、筛选并组织其所接收的感官信息


谢赛宁说关于对这个问题的思考,甚至让他们重构了此前基础的研究。

去年,他们就构建了,这是针对图像多模态模型的一次开放性探索。

但之后团队并没有直接扩大规模去构建Cambrian-2或3,而是停下来反思:


  • 真正的多模态智能意味着什么?

  • 大语言模型范式对于感官建模而言,真的合理吗?

  • 以及,为什么人类的感知如此毫不费力、如此直观,却又如此强大?


一些根本性的东西缺失了。

简单说就是,这三位巨头认为LLM目前虽然能力很强,但依然无法像人类一样感知这个世界,既然无法感知,代表LLM是有缺陷的。

谢赛宁在博客中表示,在构建出「超感知」之前,不可能真正构建出「超级智能」。

那么,什么是超感知 (supersensing)


在团队看来,「超感知」并非指更高级的传感器或更好的摄像头。

它关乎一个数字生命如何真正地体验世界——吸收源源不断的输入流,并从中学习。

超感知是智能的一部分,正如眼睛是大脑触及外部世界的那一部分。解决编程和数学问题时不需要感知能力。

但身处现实世界中的AI智能体,则需要感官建模!

谢赛宁还引用了卡帕西所说,感官建模或许就是AI智能体所需要的一切。


视频空间超感知

如何让AI能够真正地感知人类的世界?


为了更具体地阐述,团队认为以下的分类法能够清晰地描绘出一条演进路径——从团队当前拥有的技术,到团队下一步真正需要构建的目标。


  • 0. (纯语言理解)

    不具备感官能力;推理仅限于文本和符号。当前的多模态大语言模型虽已超越此阶段,但仍残留着其偏见的痕迹。

  • 1. 语义感知

    将像素解析为物体、属性和关系。这对应于多模态大语言模型目前强大的「看图说话」能力。

  • 2. 流式事件认知

    处理实时的、无限制的数据流,同时主动地解读并响应持续发生的事件。这与当前将多模T态大语言模型打造为实时助手的努力方向一致。

  • 3. 隐式3D空间认知

    将视频理解为三维世界的投影。智能体必须知道「什么东西」在「哪里」,它们之间「如何关联」,以及空间布局「如何随时间变化」。当今的多模态模型在这一方面的能力仍然极其有限。

  • 4. 预测性世界建模

    大脑通过基于先验期望来预测潜在的世界状态,从而进行「无意识推断」。当前的多模态系统缺乏一个能够预测未来状态、保持长期记忆或进行推理和规划的内部模型。


要研究这一切,视频是最佳的媒介——它是人类每天体验世界的方式,是人类生活经验的直接投影。

如何判断模型达到超感知能力

首要问题(始终)是基准测试。

谢赛宁说他也很钟爱多模态大语言模型,但若缺乏开放和批判性的审视,团队可能会在错误的方向上进行优化。

许多视频基准测试甚至不需要真正的感知能力;正如团队所展示的,仅仅依靠单帧图像或字幕就能获得高分。

谢赛宁也提到了现在的玩法是:

科技公司构建强大的语言模型 → 基准测试奖励的是模型的文本记忆能力 → 模型通过扩大LLM的规模获得更高分数 → 其他公司纷纷效仿

这个循环不断持续,直到团队意识到,召唤出的「幽灵」在感知能力上,仍然落后于一只猫,或一只松鼠。

莫拉维克悖论再次应验:对人类而言毫不费力的感知能力,对模型来说却难如登天。


这不仅仅是一个科学问题。

真正的价值来自于那些能够在现实世界中感知和行动的模型:

从工厂到农场,再到医院……从机器人到那些人们期望能作为个人助理佩戴的AI眼镜。

仅靠大语言模型是无法实现这一切的。

超级智能,始于超感知。


超感知的关键一环是视觉空间智能

谢赛宁团队之前有一个VSI-Bench基准用于测试空间推理,但其中的视频太短,任务也过于简单。

所以,团队打造了一个看似更简单、实则更难的版本:VSI-Super

其中有两个任务。

· 任务1:VS

长时程空间记忆。团队使用扩散模型编辑视频,插入一些不合上下文但视觉上融合的物体(而不是随机的「大海捞针」式物体)。


· 任务2:VSC

持续计数。在变化的视角和场景下进行持续计数……模型只需数出它们所看到的东西。


一个测试考察对物体顺序的记忆力,另一个则考察计数能力。

任务简单,可流式处理——还能有比这更容易的吗?

然而,顶尖的大语言模型却纷纷败下阵来。

而且,这不仅仅是长上下文(long context)的问题。

为什么?

谢赛宁解释道(其实还是验证了莫拉维克悖论):


  • 视频可以任意长。这对于对人类来说,这很简单。人类的感官能处理「无限的Token」。这虽然是一个有损的过程,但人们能记住几天甚至几周的经历。模型却做不到。

  • 它们(LLM)缺乏真正的空间认知和泛化能力。

    人类可以一直数下去,而模型不行。


以顶尖的Gemini 2.5模型为例,它只能数到几十个。

即使视频更长、物体更多,它也会停止计数。 这充分暴露了其训练数据的分布特点。


当然,你可能会问——这难道不只是一个数据或规模化的问题吗?

就像Scaling Law一样,继续增加数据量和增大训练量,不就可以解决吗?

谢赛宁表示,部分是因为规模这个原因。

但这也是他们构建全新的Cambrian-S视频多模态大语言模型(MLLM)系列的原因。

团队想要挑战当前范式(LLM)的极限。

谢赛宁、李飞飞和LeCun,他们认为数据和规模化对于超感知至关重要(但仅有这些还不够)。

核心问题在于:目前缺乏真正用于训练空间认知的有效数据。

所以团队构建了一个名为VSI-590K的数据集。


它包含59万个训练样本,来源包括:带有3D标注的室内环境第一人称探索视频、来自模拟器的视频,以及使用VGGT等视觉工具进行伪标注的YouTube视频。

团队探索了多种后训练方案、数据混合策略以及一系列工程细节,训练了从5亿到70亿参数不等的模型。

结果显示出强大的空间推理能力——性能比团队的基座MLLM提升高达 30%。即使是最小的模型也表现得相当出色。


已经将数据和模型全部开源。

相信它们将在许多任务中发挥作用。但要明确一点——这仍然无法解决 VSI-Super 基准测试的挑战。

而且他们越来越坚信:沿用大语言模型的老路来构建多模态模型,并非通往超感知的终极之道。(其实就是LeCun在多个场合下所说的LLM并不会通向AGI。)

全新原型,全新范式

展望未来,团队正在开发一种全新原型——团队称之为「预测性感知」。

在这篇论文中引用了大量来自认知科学和发展心理学的研究成果。

越是深入研读,就越为人类和动物的感知能力而惊叹。

人类的视觉系统拥有极高的带宽,却又有着惊人的效率。


每只眼睛的600万个视锥细胞可以传输约1.6 Gbit/s的数据,然而大脑仅用约10 bits/s的信息来指导行为。

大部分感官数据都被过滤和压缩,整个过程都在自动运行——你甚至毫无察觉。

人类的大脑是如何做到这一点的?

一个主流理论认为:

你的大脑在后台运行一个「预测性世界模型」来进行感知,它不断地预测未来,并将其与实际发生的情况进行比对。


  • 如果预测误差很小→ 说明一切尽在预料之中,可以忽略

  • 如果预测误差很大→ 这就是「惊异」,大脑会集中注意力,并更新记忆。


目前的大语言模型中,没有任何与之相当的机制。

为验证这一想法,团队在Cambrian-S模型之上,训练了一个潜在帧预测 (Latent Frame Prediction, LFP) 模块。(过去人类模仿鸟类、蝙蝠发明了飞机和超声波,这次AI要模仿人类了)

团队在推理过程中估算「惊异度」,并将其应用于两个方面:

  • 惊异度驱动的记忆管理—— 压缩或跳过无意外的帧,将计算资源集中在有意外的帧上。

  • 惊异度驱动的事件切分—— 利用「惊异度」的峰值来检测事件边界或场景变化。

通过利用这个内部预测模型提供的信号,已经在空间认知任务上看到了喜人的性能提升。

这目前只是一个简化的预测性世界模型原型——但仅凭这一机制,小模型就在VSI-Super评测基准上超越了Gemini。


谢赛宁说虽然这篇论文很长,但保证——其中有很多团队认为非常有趣的细节。

如果你也在研究视频多模态模型,那么这篇论文很值得一读。

我不敢说团队的方法就是正确的道路——但我确信,当前的范式是远远不够的,而开放科学、开放研究,才是唯一的出路。

值得一提的是,团队还同步发布了由相关的两个相关项目:

一项关于多模态基准设计的研究——如何对基准进行压力测试,并有效消除语言偏见。


一份经验总结,关于团队如何构建模拟器来收集空间感知视频(Cambrian-S 使用的正是这些数据)。


作者介绍


共同一作Shusheng Yang是纽约大学计算机科学专业的博士生,指导老师是谢赛宁教授。

此前,他在华中科技大学获得计算机课学士学位和计算机视觉与深度学习硕士学位。


共同一作Jihan Yang,是纽约大学库朗研究所的一名博士后副研究员,师从谢赛宁教授。

此前,他在香港大学获得博士学位,在中山大学获得学士学位。

他的研究兴趣主要集中在机器学习和计算机视觉领域,重点探索多模态大语言模型在推理、智能体、长视频理解、空间智能和统一模型方面的研究,以及它们在现实世界中的应用与落地。


核心作者黄品志是纽约大学本科生,师从谢赛宁教授。

参考资料:

https://cambrian-mllm.github.io/cambrian-s/

https://arxiv.org/abs/2511.04670

https://x.com/sainingxie/status/1986685042332958925

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朱媛媛离世7个月后遗作定档,辛柏青状态令人担忧,李乃文没说错

朱媛媛离世7个月后遗作定档,辛柏青状态令人担忧,李乃文没说错

林雁飞
2026-01-10 13:32:50
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
做到了!鲁尼弟弟赛前称如果淘汰水晶宫将载入足总杯史册

做到了!鲁尼弟弟赛前称如果淘汰水晶宫将载入足总杯史册

懂球帝
2026-01-10 22:37:09
花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有6好处

花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有6好处

蜉蝣说
2025-11-20 14:40:39
美国人为啥不爱存钱!不是因为他们不想存,而是因为他们不能存

美国人为啥不爱存钱!不是因为他们不想存,而是因为他们不能存

西楼知趣杂谈
2025-12-28 11:28:55
中超第11座专业足球场年底落成:草皮和视野都是国内顶级!

中超第11座专业足球场年底落成:草皮和视野都是国内顶级!

邱泽云
2026-01-10 19:30:22
因长得太漂亮,7次拒绝导演要求遭打压,如今43岁才等到掌声

因长得太漂亮,7次拒绝导演要求遭打压,如今43岁才等到掌声

黎兜兜
2025-12-25 21:57:32
中俄朝三国都明白了,打美军航母已不重要:必须先打日本导弹基地

中俄朝三国都明白了,打美军航母已不重要:必须先打日本导弹基地

小兰聊历史
2026-01-11 02:13:13
最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

林雁飞
2026-01-04 19:29:51
《晨光漫过屋檐,终于吻上那滴凝结了十年的泪痕》

《晨光漫过屋檐,终于吻上那滴凝结了十年的泪痕》

時代亿人
2026-01-04 07:02:50
梅德韦杰夫威胁要打击欧洲,声称不会接受西方军队部署在乌克兰

梅德韦杰夫威胁要打击欧洲,声称不会接受西方军队部署在乌克兰

山河路口
2026-01-10 23:25:28
状态越来越好了,快船锋线大将的表现已经接近大家的预期了?

状态越来越好了,快船锋线大将的表现已经接近大家的预期了?

稻谷与小麦
2026-01-10 23:11:07
恰到好处的三十岁、女人最妩媚的年纪 - 木下凛凛子

恰到好处的三十岁、女人最妩媚的年纪 - 木下凛凛子

吃瓜党二号头目
2025-12-30 09:34:55
中国不但没有给日本留后路,也没有给自己留后路!

中国不但没有给日本留后路,也没有给自己留后路!

柏林观察
2025-12-08 11:30:25
可控核聚变领域,国内表现优秀的10家公司名单曝光!(建议收藏)

可控核聚变领域,国内表现优秀的10家公司名单曝光!(建议收藏)

元爸体育
2026-01-09 08:49:12
斯普利特:以现在的年龄依旧砍下30+ 杜兰特实在令人钦佩

斯普利特:以现在的年龄依旧砍下30+ 杜兰特实在令人钦佩

北青网-北京青年报
2026-01-10 18:43:03
3种鱼已被列入致癌名单,吃多了会致癌?医生忠告:尽量少吃

3种鱼已被列入致癌名单,吃多了会致癌?医生忠告:尽量少吃

阿兵科普
2025-12-06 12:43:28
CCTV5直播,U23国足背水一战 5后卫改对攻 王钰栋和蒯纪闻更适配

CCTV5直播,U23国足背水一战 5后卫改对攻 王钰栋和蒯纪闻更适配

替补席看球
2026-01-10 07:59:47
18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

环球趣闻分享
2026-01-07 13:30:09
外媒:丹麦国防部证实,若美国武力夺取格陵兰岛,丹麦士兵可“先开枪再请示”

外媒:丹麦国防部证实,若美国武力夺取格陵兰岛,丹麦士兵可“先开枪再请示”

环球网资讯
2026-01-08 14:39:45
2026-01-11 04:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14304文章数 66452关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

教育
时尚
艺术
手机
房产

教育要闻

表现不好,还不接受批评的学生,怎么教育比较合适?

伊姐周六热推:电视剧《小城大事》;电视剧《轧戏》......

艺术要闻

601米,150亿美元!沙特目前第一高楼是它!

手机要闻

魅族22Air、22 Next不开售发布,魅族23确认

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

无障碍浏览 进入关怀版