网易首页 > 网易号 > 正文 申请入驻

杨立昆、李飞飞等提出空间超感知范式,用预测未来代替暴力记忆

0
分享至

去年,谢赛宁(Saining Xie)团队发布了 Cambrian-1,一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3,而是停下来思考:真正的多模态智能意味着什么?大语言模型范式对于感知建模真的合理吗?

谢赛宁在推特上写道:“有些根本性的东西缺失了。你无法在构建超级感知(supersensing)之前就构建出超级智能。”这无关于更好的传感器或更高清的摄像头,而在于一个数字存在如何真正体验世界,如何吸收无尽的输入流并从中学习。正如 Andrej Karpathy 所说,对于现实世界中的 AI 智能体,感知建模可能就是它所需要的一切。


图丨相关推文(来源:X)

团队提出了一个演进分类法:从纯语言理解(第零层),到语义感知(第一层,对应“看图说话”能力),到流式事件认知(第二层,实时助手的基础),再到隐式 3D 空间认知(第三层,理解视频作为 3D 世界的投影),最后是预测性世界建模(第四层,通过预测潜在世界状态进行“无意识推理”)。当前的多模态模型大多停留在前两层,少数触及第三层,而第四层几乎完全缺失。

这就是 2025 年 11 月,由谢赛宁领导,杨立昆(Yann LeCun)、李飞飞(Li Fei-Fei)参与指导的团队的新论文“Cambrian-S: Towards Spatial Supersensing in Video”的起点。


图丨相关论文(来源:arXiv)

论文不仅提出了“空间超感知”这个新范式,还构建了相应的基准测试、数据集和模型,来验证一个判断:当前的多模态大语言模型在真正的空间感知任务上,存在系统性的失败。

团队首先对现有视频理解基准进行了系统性审查。他们发现,尽管学界已经开发了大量评测基准,但这些测试大多集中在前两个阶段,要么是简单的物体识别和描述,要么是短时段的事件理解。真正考察空间推理和世界建模能力的基准寥寥无几。


(来源:arXiv)

而许多被标榜为“空间推理”的任务,实际上可以通过文本捷径绕过视觉理解来完成。例如,在 VideoMME 基准的所谓空间推理子类别中,一个关于月球撞击地球的问题,本质上只需要物理常识而非视觉空间理解;另一个关于宇航员装备的问题,更像是在考察模型对 NASA 相关文本知识的记忆。

为了弥补这一评测空白,团队构建了 VSI-SUPER 基准测试,“VSI”代表视觉-空间智能(Visual-Spatial Intelligence)。这个基准包含两个子任务:VSR(Visual Spatial Recall,长时域视觉空间回忆)和 VSC(Visual Spatial Counting,持续视觉空间计数)。两个任务都使用长达数小时的视频内容,要求模型不仅要“看见”,还要“记住”并“理解”空间中物体的变化。


(来源:arXiv)

测试结果相当惊人。号称具备强大“实时视觉输入”能力的商业模型 Gemini-Live 和 GPT-Realtime,在 10 分钟视频上的平均相对准确率(Mean Relative Accuracy,MRA)都不到 15%,当视频长度延伸至 120 分钟时,表现几乎归零。这些标榜的“长上下文”模型,在真正需要持续追踪空间信息的场景下完全无法胜任。

问题出在哪里?按照团队提出的分类法,当前的 MLLMs(Multimodal Large Language Models,多模态模型)大多停留在前两个层次,少数模型刚刚触及第三层的隐式 3D 空间认知,而第四层,也就是最关键的预测性世界建模,几乎完全缺失。

认识到问题后,团队开始动手解决。他们首先构建了 VSI-590K 数据集,这是一个专门针对空间理解的视频指令调优数据集,包含约 59 万个训练样本。数据来源分为三类:高质量人工标注的真实视频、模拟数据,以及通过自动化流程从网络视频中提取的伪标注数据。团队开发了一套完整的自动化标注流程,使用 GroundingDINO 进行物体检测、SAM2 生成掩码、VGGT 估计 3D 点云,最终生成几何相关的问答对。

在此基础上训练的 Cambrian-S 模型家族,参数规模从 0.5B 到 7B 不等。训练过程分为四个阶段:视觉-语言对齐、图像指令调优、通用视频指令调优,以及空间视频指令调优。实验结果显示,Cambrian-S-7B 在 VSI-Bench 上达到了 67.5% 的准确率,比开源基线模型如 InternVL3.5-8B 和 Qwen-VL-2.5-7B 高出一大截,甚至超越商业模型 Gemini-2.5-Pro 超过 16 个百分点。同时,模型在 Perception Test、EgoSchema 等通用视频基准上也保持了竞争力。


(来源:arXiv)

但即便是 Cambrian-S,在 VSI-SUPER 上的表现虽然优于基线模型,可一旦视频长度超过 60 分钟,其性能仍会急剧下降。这验证了团队的判断:仅仅依靠扩大数据规模和模型参数,无法突破当前 MLLM 范式的根本局限。真正需要的是范式转变。

这个转变就是“预测性感知”(Predictive Sensing)。这一概念受人类认知机制启发:我们的大脑不是被动接收所有视觉信息,而是会主动预测接下来会看到什么,并将注意力集中在那些“出乎意料”的事件上。团队在 Cambrian-S 中实现了这一机制:添加了一个潜在帧预测头(Latent Frame Prediction head),这是一个两层 MLP 结构,可以在进行下一个 token 预测的同时,预测下一个视频帧的潜在表征。


(来源:arXiv)

训练时,模型使用均方误差和余弦距离损失来衡量预测特征与真实特征之间的差异。推理时,这个预测误差就变成了“惊奇度”(surprise score)。惊奇度低的帧,也就是模型能够准确预测的内容,会被压缩后存储到长期记忆中;惊奇度高的帧,代表场景发生了重要变化,则会保留更多细节。这种机制使得模型可以用有限的记忆容量处理几乎无限长的视频流。

在 VSC 任务中,团队进一步设计了基于惊奇度的事件分割方案。模型会持续在“事件缓冲区”中积累帧特征,当检测到高惊奇度的帧(通常意味着场景切换)时,就会对当前缓冲区的内容进行总结,生成该片段的答案,然后清空缓冲区开始新的事件。这让模型能够将连续的视觉流自然地分割成有意义的事件单元。实验数据证明了这种设计的有效性。

在 VSR 任务中,配备了预测性感知机制的 Cambrian-S 能够在视频长度增加时保持相对稳定的准确率,同时 GPU 内存使用量保持恒定。它在所有测试长度上都超越了 Gemini 1.5 Flash 和 Gemini 2.5 Flash,避免了仅依靠扩展上下文的模型出现的性能急剧下降。在 VSC 任务中,即便是在 120 分钟的视频流上,Cambrian-S 仍能维持约 28% 的准确率,而商业模型基本上已经失效。

不过,团队也指出,无论是 VSI-SUPER 基准、VSI-590K 数据集,还是 Cambrian-S 模型和预测性感知机制,都只是这个长期研究方向的初步探索。基准测试的覆盖面仍然有限,数据集的规模和多样性需要扩大,模型的泛化能力有待提高,预测机制也还只是一个概念验证。未来的工作需要探索更多样化和具身化的场景,并与视觉、语言和世界建模领域的最新进展建立更紧密的联系。

而预测性感知机制也将成为团队未来探索的关键方向,模仿人脑利用“预测”和“惊喜”来高效感知世界,或许正是打破当前范式瓶颈的关键。

为什么号称具备“长上下文”能力的模型会在长视频理解上集体失效?答案其实很清楚。长上下文只是提供了更大的记忆容量,但并没有解决如何有效利用这些容量的问题。真正需要的是一套智能的管理系统,知道什么该详细记录、什么可以粗略存储、什么完全可以遗忘,以及在需要时如何快速检索关键信息。

相关论文、代码、模型权重和数据集都已在 GitHub 和 Hugging Face 平台开源。

参考资料:

相关论文:https://arxiv.org/pdf/2511.04670v1

项目地址:https://cambrian-mllm.github.io/cambrian-s/

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河北一地县委书记、县长均有调整!

河北一地县委书记、县长均有调整!

新牛城
2025-11-09 10:31:55
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
内娱欠她一个爆红!神颜实力派为何无人识?

内娱欠她一个爆红!神颜实力派为何无人识?

乡野小珥
2025-11-09 14:45:34
悲剧!宝马车女司机被侧翻的渣土车砸死,家里有孩子在等她

悲剧!宝马车女司机被侧翻的渣土车砸死,家里有孩子在等她

魔都姐姐杂谈
2025-11-09 19:09:17
近3场不胜0进球,旧将:那不勒斯踢成那样是想赶走孔蒂

近3场不胜0进球,旧将:那不勒斯踢成那样是想赶走孔蒂

懂球帝
2025-11-10 01:49:07
福建男子全身查出20多处肿瘤!医生惋惜:他年年体检,却漏了这项几十元的检查……

福建男子全身查出20多处肿瘤!医生惋惜:他年年体检,却漏了这项几十元的检查……

福建卫生报
2025-11-09 12:14:42
酒店“开房”大数据曝光:已婚女性,都在偷偷开房……

酒店“开房”大数据曝光:已婚女性,都在偷偷开房……

热心市民小黄
2025-11-05 12:17:17
淡水虹鳟,彻底毁掉了“三文鱼”这一优质食品

淡水虹鳟,彻底毁掉了“三文鱼”这一优质食品

北欧模式
2025-10-16 22:38:47
田亮儿子14岁近照惊呆网友!身高猛窜颜值逆天,森碟弟弟变霸总,基因强大到全家“撞脸”

田亮儿子14岁近照惊呆网友!身高猛窜颜值逆天,森碟弟弟变霸总,基因强大到全家“撞脸”

今古深日报
2025-11-09 11:14:01
河南队主帅拉莫斯:俱乐部想续约,我说咱的踢法能进中超前三

河南队主帅拉莫斯:俱乐部想续约,我说咱的踢法能进中超前三

潘鍵旅行浪子
2025-11-09 20:32:38
我花12800请月嫂,她每天玩手机给我吃剩菜,辞退她时才知道,她竟是婆婆花3000请来的远房亲戚

我花12800请月嫂,她每天玩手机给我吃剩菜,辞退她时才知道,她竟是婆婆花3000请来的远房亲戚

上海约饭局
2025-11-08 12:05:46
塌了!被中产吹上天的高端家居,如今欠薪关店、巨亏17亿!

塌了!被中产吹上天的高端家居,如今欠薪关店、巨亏17亿!

渔樵文史
2025-11-07 21:45:03
皇马球迷不满,0-0平局非主因,另有两大因素引发争议

皇马球迷不满,0-0平局非主因,另有两大因素引发争议

老牛体育解说
2025-11-10 02:15:05
旅美中国球员陷入低潮期,杨瀚森、林葳、王少杰、淡厚然持续低迷

旅美中国球员陷入低潮期,杨瀚森、林葳、王少杰、淡厚然持续低迷

富贵体坛说
2025-11-09 16:44:11
湖南李天仇为父报仇,玩弄仇人妻子10年,复仇一夜屠尽13口家人

湖南李天仇为父报仇,玩弄仇人妻子10年,复仇一夜屠尽13口家人

纸鸢奇谭
2024-08-17 14:22:37
最近百年来,美国最大的战略失误是什么?美国注定因此衰落

最近百年来,美国最大的战略失误是什么?美国注定因此衰落

小哥很OK
2025-02-05 11:10:11
李兰娟院士忠告:胃部开始癌变的第一信号,吃东西可能就知道

李兰娟院士忠告:胃部开始癌变的第一信号,吃东西可能就知道

今日养生之道
2025-11-09 14:51:50
“凭啥只给弟弟钱?”女儿控诉偏心,母亲一句话收获数万网友点赞

“凭啥只给弟弟钱?”女儿控诉偏心,母亲一句话收获数万网友点赞

妍妍教育日记
2025-11-07 18:12:59
张家界荒野求生选手抓到了野猪,吃得满嘴流油,赛事方:是提前投放的驯养二代野猪;总策划人称最佩服“冷美人”,她连鼻涕虫都吃

张家界荒野求生选手抓到了野猪,吃得满嘴流油,赛事方:是提前投放的驯养二代野猪;总策划人称最佩服“冷美人”,她连鼻涕虫都吃

极目新闻
2025-11-08 21:37:23
全红婵辉煌不再!全运会得第五后,世界泳联对其评价让粉丝破防

全红婵辉煌不再!全运会得第五后,世界泳联对其评价让粉丝破防

阿紵美食
2025-11-09 14:41:43
2025-11-10 04:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15843文章数 514277关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

本地
亲子
家居
时尚
数码

本地新闻

这届干饭人,已经把博物馆吃成了食堂

亲子要闻

女儿出生时,我在她耳后点了朱砂痣,月嫂抱着的婴儿耳后却也有红点

家居要闻

现代自由 功能美学居所

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

数码要闻

内存、硬盘价格暴涨到扛不住!铭凡官宣旗下迷你主机涨价

无障碍浏览 进入关怀版