网易首页 > 网易号 > 正文 申请入驻

DeepMind团队提出“帧链”理论,揭示Veo 3的通用智能潜力

0
分享至

Google DeepMind 近日发表了一篇论文,详细介绍了其生成式视频模型 Veo 3 所展现出的“零样本”学习与推理能力,并提出了一个与大型语言模型中的“思维链”相对应的核心概念——“帧链”(CoF,Chain-of-Frames)。研究团队通过对超过 18,000 个生成视频的分析,系统地展示了 Veo 3 在未经过任何特定任务微调的情况下,解决从基础感知到复杂视觉推理等一系列问题的潜力。这篇题为《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)的论文,明确提出了一个论点:正如 LLM(Large Language Model,大型语言模型)统一了自然语言处理领域,生成式视频模型正走在成为机器视觉领域通用基础模型的道路上。

在过去几年中,自然语言处理(NLP,Natural Language Processing)领域经历了一场重大的变革,从为翻译、摘要、问答等每个任务构建专门的“定制模型”,转向了由一个统一的、可通过提示(prompting)解决多样化问题的 LLM 主导的时代。如今的机器视觉领域,在某种程度上正在复现NLP 变革前的状态:我们拥有在特定任务上表现卓越的模型,例如用于物体检测的 YOLO 系列或用于图像分割的 Segment Anything,但缺少一个仅通过指令就能解决开放式视觉问题的通用模型。DeepMind 的研究人员认为,促使 LLM 能力涌现的核心要素——即在网络规模的数据集上训练大型生成模型——同样适用于当代的视频模型。Veo 3 的实验结果,正是为了验证这一判断。

此项研究的亮点在于,它借鉴了大型语言模型中广为人知的“思维链”(CoT,Chain-of-Thought),并创造性地提出了一个视觉领域的平行概念——“帧链”(CoF,Chain-of-Frames)。思维链通过将复杂问题分解为一系列中间推理步骤,并以文本形式逐步生成,极大地增强了语言模型的逻辑推理能力。

DeepMind 指出,视频生成在本质上是一个逐帧应用变化的过程,这种时空上的序列生成,恰好为视觉问题提供了一种内在的、循序渐进的解决方案,这便是“帧链”。语言模型操纵的是人类发明的符号,而视频模型则直接在时间和空间这两个物理维度上应用改变。因此,帧链推理使得视频模型有潜力通过一步步生成画面,来解决需要多步规划和动态理解的复杂视觉任务。

为系统地评估 Veo 3 的能力,研究团队构建了一个涵盖四个层级的能力框架:感知(Perception)、建模(Modeling)、操控(Manipulation)和推理(Reasoning)。在最基础的感知层面,Veo 3 展示了在没有经过显式训练的情况下,完成一系列经典计算机视觉任务的能力,包括图像分割、边缘检测、关键点定位、超分辨率、盲去模糊和去噪。这些“涌现”出的能力,意味着视频模型未来可能取代目前许多需要专门训练的视觉工具模型。

在感知之上是建模能力,即理解世界运行的基本规律,尤其是直觉物理。Veo 3 能够对刚体和柔体的动态、表面交互进行建模,并表现出对浮力、空气阻力、折射与反射等物理现象的理解。在一个模拟“视觉叠叠乐”(Visual Jenga)的任务中,模型能够以物理上合理的方式移除场景中的物体。它还能理解物体功能,例如判断哪些物品可以被放进背包。此外,模型还能在时间和镜头移动中保持对世界状态的记忆,这构成了其进行更复杂操作的基础。

在此之上,便是模型的操控能力。Veo 3 能够执行多样的零样本图像编辑任务,如背景移除、风格迁移、图像上色和修复。它还能根据涂鸦指令编辑图像,将不同物体合成为一个协调的场景,或将一张自拍肖像转化为专业的商务头像。这种对场景进行合理修改的能力,使其可以想象复杂的交互,模拟灵巧的物体操控,例如演示如何卷一个墨西哥卷饼,或让机器人手臂像人类一样自然地拿起锤子。

这一系列能力的集成,最终赋予了模型进行视觉推理的能力。这正是“帧链”机制发挥关键作用的领域。在迷宫求解任务中,Veo 3 通过逐帧生成红色方块在白色路径上的移动,最终停在绿色终点,从而完成任务。其在 5x5 网格迷宫上的成功率(pass@10)达到了 78%,远高于其前代模型 Veo 2 的 14%。

研究还将其与最近大热的图像模型 Nano Banana 和语言模型 Gemini 2.5 Pro 进行了比较。结果显示,静态的图像模型难以解决需要过程的迷宫任务,而语言模型虽然在处理 ASCII 文本迷宫时表现优异,但在直接理解图像输入时则面临困难。这也凸显出视频模型通过“帧链”进行逐步视觉推理的独特优势。除了迷宫,Veo 3 还能完成视觉序列补全、连接匹配颜色、解决简单的数独谜题和视觉对称性补全等任务。

不过,团队表示,目前 Veo 3 在许多任务上的表现仍不及最先进的专用模型,这与 LLM 发展的早期阶段(如 GPT-3 与精调模型的对比)非常类似。

此外,生成视频的计算成本依然相当高昂。但论文援引历史数据指出,LLM 的推理成本正以每年 9 到 900 倍的速度下降,早期被认为“部署成本过高”的通用模型,最终凭借其通用性和成本的快速下降取代了多数专用模型。如果 NLP 的发展轨迹可作为参考,同样的趋势也将在视觉领域上演。

参考资料:

1. https://arxiv.org/pdf/2509.20328

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
43岁港星自曝在中山买房,晒房产证直呼划算,四房两厅不到200万

43岁港星自曝在中山买房,晒房产证直呼划算,四房两厅不到200万

八斗小先生
2026-05-27 11:37:59
美国女主播:有篮球运动员出1500万买我的第一次,但我拒绝了

美国女主播:有篮球运动员出1500万买我的第一次,但我拒绝了

懂球帝
2026-05-26 09:10:07
国王等了16年,却被一个“最差主帅”救活了

国王等了16年,却被一个“最差主帅”救活了

茅塞盾开本尊
2026-05-26 14:13:56
日本人在美网发文试探:如果日本再次侵略中国,中国人会怕吗?

日本人在美网发文试探:如果日本再次侵略中国,中国人会怕吗?

史料布籍
2026-05-27 11:42:42
为什么很多女性不愿意做婚检?一个女护士说出大实话,原因太现实

为什么很多女性不愿意做婚检?一个女护士说出大实话,原因太现实

千秋文化
2026-05-26 19:22:14
中美法德都派人赴俄,泽连斯基暴怒:普京连话都说不清了,还打!

中美法德都派人赴俄,泽连斯基暴怒:普京连话都说不清了,还打!

基斯默默
2026-05-26 20:31:07
包工头退出舞台!住建委:取消劳务分包!全面实现自有工人施工!国资委:建筑央企建立自有工人队伍

包工头退出舞台!住建委:取消劳务分包!全面实现自有工人施工!国资委:建筑央企建立自有工人队伍

新浪财经
2026-05-27 00:42:22
《奔跑吧》开播12年来,第一次出现了让节目组措手不及的局面。

《奔跑吧》开播12年来,第一次出现了让节目组措手不及的局面。

瑶子君
2026-05-26 20:13:32
刘强东最新讲话:想尽一切办法保住数十万员工的饭碗,承诺“被机器人取代的一线员工,一个都不开除”

刘强东最新讲话:想尽一切办法保住数十万员工的饭碗,承诺“被机器人取代的一线员工,一个都不开除”

极目新闻
2026-05-27 18:54:57
罗马诺:埃德松与曼联达成个人条款,4500万转会费等待红魔点头

罗马诺:埃德松与曼联达成个人条款,4500万转会费等待红魔点头

懂球帝
2026-05-27 19:46:24
白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

新华社
2026-05-27 22:55:14
割四赔五后续:全网震怒!免工钱反被讹,大妈正脸曝光遭全网唾弃

割四赔五后续:全网震怒!免工钱反被讹,大妈正脸曝光遭全网唾弃

行者聊官
2026-05-26 16:49:25
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
洗厕所6年,洗碗6年,3次濒临破产:黄仁勋的“活下去”哲学,打脸多少眼高手低的人?

洗厕所6年,洗碗6年,3次濒临破产:黄仁勋的“活下去”哲学,打脸多少眼高手低的人?

苏格拉高
2026-05-27 08:13:34
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

嫹笔牂牂
2026-05-26 07:30:48
莎拉高举反华大旗,两周三度喊话军方,彻底推翻老杜六年外交布局

莎拉高举反华大旗,两周三度喊话军方,彻底推翻老杜六年外交布局

健身狂人
2026-05-26 18:45:11
深圳南坪快速上突发火情,隔音棚烧毁严重,多方回应:车辆起火引发,正处置

深圳南坪快速上突发火情,隔音棚烧毁严重,多方回应:车辆起火引发,正处置

潇湘晨报
2026-05-27 18:00:17
被兄弟设局吞掉300亿公司,坐牢10年的大佬出狱,现状太唏嘘!

被兄弟设局吞掉300亿公司,坐牢10年的大佬出狱,现状太唏嘘!

青眼财经
2026-05-27 20:04:13
白俄罗斯蠢蠢欲动,乌克兰针锋相对,俄又一艘导弹护卫舰被击沉

白俄罗斯蠢蠢欲动,乌克兰针锋相对,俄又一艘导弹护卫舰被击沉

史政先锋
2026-05-27 17:56:12
一年闭店近22000家!又一行业巨头生意跌落神坛,卖不动了?

一年闭店近22000家!又一行业巨头生意跌落神坛,卖不动了?

财经八卦
2026-05-27 15:49:51
2026-05-28 01:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16756文章数 514979关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

艺术
本地
房产
旅游
公开课

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力,科技公司都抢着用?

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

旅游要闻

5月27日最佳情报|晨韵如诗超治愈,蜀葵绽放花枝温婉雅致

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版