网易首页 > 网易号 > 正文 申请入驻

DeepMind团队提出“帧链”理论,揭示Veo 3的通用智能潜力

0
分享至

Google DeepMind 近日发表了一篇论文,详细介绍了其生成式视频模型 Veo 3 所展现出的“零样本”学习与推理能力,并提出了一个与大型语言模型中的“思维链”相对应的核心概念——“帧链”(CoF,Chain-of-Frames)。研究团队通过对超过 18,000 个生成视频的分析,系统地展示了 Veo 3 在未经过任何特定任务微调的情况下,解决从基础感知到复杂视觉推理等一系列问题的潜力。这篇题为《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)的论文,明确提出了一个论点:正如 LLM(Large Language Model,大型语言模型)统一了自然语言处理领域,生成式视频模型正走在成为机器视觉领域通用基础模型的道路上。


图丨相关论文(来源:arXiv)

在过去几年中,自然语言处理(NLP,Natural Language Processing)领域经历了一场重大的变革,从为翻译、摘要、问答等每个任务构建专门的“定制模型”,转向了由一个统一的、可通过提示(prompting)解决多样化问题的 LLM 主导的时代。如今的机器视觉领域,在某种程度上正在复现NLP 变革前的状态:我们拥有在特定任务上表现卓越的模型,例如用于物体检测的 YOLO 系列或用于图像分割的 Segment Anything,但缺少一个仅通过指令就能解决开放式视觉问题的通用模型。DeepMind 的研究人员认为,促使 LLM 能力涌现的核心要素——即在网络规模的数据集上训练大型生成模型——同样适用于当代的视频模型。Veo 3 的实验结果,正是为了验证这一判断。

此项研究的亮点在于,它借鉴了大型语言模型中广为人知的“思维链”(CoT,Chain-of-Thought),并创造性地提出了一个视觉领域的平行概念——“帧链”(CoF,Chain-of-Frames)。思维链通过将复杂问题分解为一系列中间推理步骤,并以文本形式逐步生成,极大地增强了语言模型的逻辑推理能力。

DeepMind 指出,视频生成在本质上是一个逐帧应用变化的过程,这种时空上的序列生成,恰好为视觉问题提供了一种内在的、循序渐进的解决方案,这便是“帧链”。语言模型操纵的是人类发明的符号,而视频模型则直接在时间和空间这两个物理维度上应用改变。因此,帧链推理使得视频模型有潜力通过一步步生成画面,来解决需要多步规划和动态理解的复杂视觉任务。

为系统地评估 Veo 3 的能力,研究团队构建了一个涵盖四个层级的能力框架:感知(Perception)、建模(Modeling)、操控(Manipulation)和推理(Reasoning)。在最基础的感知层面,Veo 3 展示了在没有经过显式训练的情况下,完成一系列经典计算机视觉任务的能力,包括图像分割、边缘检测、关键点定位、超分辨率、盲去模糊和去噪。这些“涌现”出的能力,意味着视频模型未来可能取代目前许多需要专门训练的视觉工具模型。


图丨Veo 3 零样本能力的定性概览(来源:arXiv)

在感知之上是建模能力,即理解世界运行的基本规律,尤其是直觉物理。Veo 3 能够对刚体和柔体的动态、表面交互进行建模,并表现出对浮力、空气阻力、折射与反射等物理现象的理解。在一个模拟“视觉叠叠乐”(Visual Jenga)的任务中,模型能够以物理上合理的方式移除场景中的物体。它还能理解物体功能,例如判断哪些物品可以被放进背包。此外,模型还能在时间和镜头移动中保持对世界状态的记忆,这构成了其进行更复杂操作的基础。

在此之上,便是模型的操控能力。Veo 3 能够执行多样的零样本图像编辑任务,如背景移除、风格迁移、图像上色和修复。它还能根据涂鸦指令编辑图像,将不同物体合成为一个协调的场景,或将一张自拍肖像转化为专业的商务头像。这种对场景进行合理修改的能力,使其可以想象复杂的交互,模拟灵巧的物体操控,例如演示如何卷一个墨西哥卷饼,或让机器人手臂像人类一样自然地拿起锤子。

这一系列能力的集成,最终赋予了模型进行视觉推理的能力。这正是“帧链”机制发挥关键作用的领域。在迷宫求解任务中,Veo 3 通过逐帧生成红色方块在白色路径上的移动,最终停在绿色终点,从而完成任务。其在 5x5 网格迷宫上的成功率(pass@10)达到了 78%,远高于其前代模型 Veo 2 的 14%。


图丨Veo 3 在不同复杂度迷宫中的求解表现(来源:arXiv)

研究还将其与最近大热的图像模型 Nano Banana 和语言模型 Gemini 2.5 Pro 进行了比较。结果显示,静态的图像模型难以解决需要过程的迷宫任务,而语言模型虽然在处理 ASCII 文本迷宫时表现优异,但在直接理解图像输入时则面临困难。这也凸显出视频模型通过“帧链”进行逐步视觉推理的独特优势。除了迷宫,Veo 3 还能完成视觉序列补全、连接匹配颜色、解决简单的数独谜题和视觉对称性补全等任务。

不过,团队表示,目前 Veo 3 在许多任务上的表现仍不及最先进的专用模型,这与 LLM 发展的早期阶段(如 GPT-3 与精调模型的对比)非常类似。

此外,生成视频的计算成本依然相当高昂。但论文援引历史数据指出,LLM 的推理成本正以每年 9 到 900 倍的速度下降,早期被认为“部署成本过高”的通用模型,最终凭借其通用性和成本的快速下降取代了多数专用模型。如果 NLP 的发展轨迹可作为参考,同样的趋势也将在视觉领域上演。

参考资料:

1. https://arxiv.org/pdf/2509.20328

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荒野求生第30天,“夺冠热门”河南退伍特种兵退赛!此前已瘦25斤,身体达缺盐极限,将出去找工作

荒野求生第30天,“夺冠热门”河南退伍特种兵退赛!此前已瘦25斤,身体达缺盐极限,将出去找工作

极目新闻
2025-11-07 10:14:46
3连败!快船为何低于预期?今夏被认为超值的4笔运作,结果全亏了

3连败!快船为何低于预期?今夏被认为超值的4笔运作,结果全亏了

你的篮球频道
2025-11-07 13:44:52
李春平死了

李春平死了

霹雳炮
2025-11-05 22:34:23
全球首个单机柜级640卡超节点问世

全球首个单机柜级640卡超节点问世

中国新闻周刊
2025-11-06 18:12:07
迟迟不给中国道歉后,高市政府发出战争威胁,中方用8字宣告结局

迟迟不给中国道歉后,高市政府发出战争威胁,中方用8字宣告结局

云鹏叙事
2025-11-07 14:30:46
看完33岁跳江外卖员的备忘录,泪目了!

看完33岁跳江外卖员的备忘录,泪目了!

黯泉
2025-11-06 15:32:00
越扒越多!17分钟不雅视频拍摄者疑曝光,女医生丈夫照片流出

越扒越多!17分钟不雅视频拍摄者疑曝光,女医生丈夫照片流出

派大星纪录片
2025-11-07 11:59:33
马科斯通告世界:菲律宾进入国家灾难状态,罕见措辞引发国际关注

马科斯通告世界:菲律宾进入国家灾难状态,罕见措辞引发国际关注

一个有灵魂的作者
2025-11-07 09:00:02
拿咱们当傻子

拿咱们当傻子

生活魔术专家
2025-11-06 13:10:54
新股上市第二天大跌超17%,进场的股民全部被套,无一幸免

新股上市第二天大跌超17%,进场的股民全部被套,无一幸免

财经智多星
2025-11-07 12:55:51
朱婷登热搜第二!轰27分率河南3-0天津 单局20扣14中彰显王者霸气

朱婷登热搜第二!轰27分率河南3-0天津 单局20扣14中彰显王者霸气

颜小白的篮球梦
2025-11-07 20:46:34
生了三胎后,67岁的梁锦松为了让41岁的伏明霞再拼第4胎

生了三胎后,67岁的梁锦松为了让41岁的伏明霞再拼第4胎

没有偏旁的常庆
2025-11-07 06:41:13
貂皮水洗退货后续:警方介入,宝妈身份被扒已社死,商家还有后手

貂皮水洗退货后续:警方介入,宝妈身份被扒已社死,商家还有后手

青梅侃史啊
2025-11-07 09:02:32
福建舰正式服役!美媒预测出现失误,中国第三个航母战斗群成军

福建舰正式服役!美媒预测出现失误,中国第三个航母战斗群成军

阿柒的讯
2025-11-07 16:38:39
斯诺克赛程:半决赛17局9胜,中国德比上演,吴宜泽复仇赵心童?

斯诺克赛程:半决赛17局9胜,中国德比上演,吴宜泽复仇赵心童?

刘姚尧的文字城堡
2025-11-07 07:19:01
广东保安和AI深入对话6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

广东保安和AI深入对话6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

都市快报橙柿互动
2025-11-07 12:19:20
赵鸿刚:已经签了6场扇耳光比赛,如果医生允许,想完成剩下5场比赛;此前其眉骨处伤口已缝5针,摘墨镜眼睛肿得睁不开

赵鸿刚:已经签了6场扇耳光比赛,如果医生允许,想完成剩下5场比赛;此前其眉骨处伤口已缝5针,摘墨镜眼睛肿得睁不开

极目新闻
2025-11-07 00:52:34
如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

风信子的花
2025-10-24 23:59:39
啊!又是腿筋拉伤!NBA状元郎都顶不住

啊!又是腿筋拉伤!NBA状元郎都顶不住

篮球实战宝典
2025-11-07 19:47:12
人人都想听好消息,但世界烂透了,乌克兰不再提回到1991年边界

人人都想听好消息,但世界烂透了,乌克兰不再提回到1991年边界

山河路口
2025-11-06 13:54:49
2025-11-07 21:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15835文章数 514273关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

美媒:卢拉乘中国电动汽车抵达峰会会场

头条要闻

美媒:卢拉乘中国电动汽车抵达峰会会场

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

健康
教育
时尚
数码
家居

超声探头会加重受伤情况吗?

教育要闻

孩子成绩没啥动静,家长钱包掉得真快

赏叶季人生照片拍摄指南.PDF

数码要闻

海信RGB-Mini LED电视携手帝瓦雷亮相巴黎歌剧院

家居要闻

现代自由 功能美学居所

无障碍浏览 进入关怀版