网易首页 > 网易号 > 正文 申请入驻

DeepMind团队提出“帧链”理论,揭示Veo 3的通用智能潜力

0
分享至

Google DeepMind 近日发表了一篇论文,详细介绍了其生成式视频模型 Veo 3 所展现出的“零样本”学习与推理能力,并提出了一个与大型语言模型中的“思维链”相对应的核心概念——“帧链”(CoF,Chain-of-Frames)。研究团队通过对超过 18,000 个生成视频的分析,系统地展示了 Veo 3 在未经过任何特定任务微调的情况下,解决从基础感知到复杂视觉推理等一系列问题的潜力。这篇题为《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)的论文,明确提出了一个论点:正如 LLM(Large Language Model,大型语言模型)统一了自然语言处理领域,生成式视频模型正走在成为机器视觉领域通用基础模型的道路上。


图丨相关论文(来源:arXiv)

在过去几年中,自然语言处理(NLP,Natural Language Processing)领域经历了一场重大的变革,从为翻译、摘要、问答等每个任务构建专门的“定制模型”,转向了由一个统一的、可通过提示(prompting)解决多样化问题的 LLM 主导的时代。如今的机器视觉领域,在某种程度上正在复现NLP 变革前的状态:我们拥有在特定任务上表现卓越的模型,例如用于物体检测的 YOLO 系列或用于图像分割的 Segment Anything,但缺少一个仅通过指令就能解决开放式视觉问题的通用模型。DeepMind 的研究人员认为,促使 LLM 能力涌现的核心要素——即在网络规模的数据集上训练大型生成模型——同样适用于当代的视频模型。Veo 3 的实验结果,正是为了验证这一判断。

此项研究的亮点在于,它借鉴了大型语言模型中广为人知的“思维链”(CoT,Chain-of-Thought),并创造性地提出了一个视觉领域的平行概念——“帧链”(CoF,Chain-of-Frames)。思维链通过将复杂问题分解为一系列中间推理步骤,并以文本形式逐步生成,极大地增强了语言模型的逻辑推理能力。

DeepMind 指出,视频生成在本质上是一个逐帧应用变化的过程,这种时空上的序列生成,恰好为视觉问题提供了一种内在的、循序渐进的解决方案,这便是“帧链”。语言模型操纵的是人类发明的符号,而视频模型则直接在时间和空间这两个物理维度上应用改变。因此,帧链推理使得视频模型有潜力通过一步步生成画面,来解决需要多步规划和动态理解的复杂视觉任务。

为系统地评估 Veo 3 的能力,研究团队构建了一个涵盖四个层级的能力框架:感知(Perception)、建模(Modeling)、操控(Manipulation)和推理(Reasoning)。在最基础的感知层面,Veo 3 展示了在没有经过显式训练的情况下,完成一系列经典计算机视觉任务的能力,包括图像分割、边缘检测、关键点定位、超分辨率、盲去模糊和去噪。这些“涌现”出的能力,意味着视频模型未来可能取代目前许多需要专门训练的视觉工具模型。


图丨Veo 3 零样本能力的定性概览(来源:arXiv)

在感知之上是建模能力,即理解世界运行的基本规律,尤其是直觉物理。Veo 3 能够对刚体和柔体的动态、表面交互进行建模,并表现出对浮力、空气阻力、折射与反射等物理现象的理解。在一个模拟“视觉叠叠乐”(Visual Jenga)的任务中,模型能够以物理上合理的方式移除场景中的物体。它还能理解物体功能,例如判断哪些物品可以被放进背包。此外,模型还能在时间和镜头移动中保持对世界状态的记忆,这构成了其进行更复杂操作的基础。

在此之上,便是模型的操控能力。Veo 3 能够执行多样的零样本图像编辑任务,如背景移除、风格迁移、图像上色和修复。它还能根据涂鸦指令编辑图像,将不同物体合成为一个协调的场景,或将一张自拍肖像转化为专业的商务头像。这种对场景进行合理修改的能力,使其可以想象复杂的交互,模拟灵巧的物体操控,例如演示如何卷一个墨西哥卷饼,或让机器人手臂像人类一样自然地拿起锤子。

这一系列能力的集成,最终赋予了模型进行视觉推理的能力。这正是“帧链”机制发挥关键作用的领域。在迷宫求解任务中,Veo 3 通过逐帧生成红色方块在白色路径上的移动,最终停在绿色终点,从而完成任务。其在 5x5 网格迷宫上的成功率(pass@10)达到了 78%,远高于其前代模型 Veo 2 的 14%。


图丨Veo 3 在不同复杂度迷宫中的求解表现(来源:arXiv)

研究还将其与最近大热的图像模型 Nano Banana 和语言模型 Gemini 2.5 Pro 进行了比较。结果显示,静态的图像模型难以解决需要过程的迷宫任务,而语言模型虽然在处理 ASCII 文本迷宫时表现优异,但在直接理解图像输入时则面临困难。这也凸显出视频模型通过“帧链”进行逐步视觉推理的独特优势。除了迷宫,Veo 3 还能完成视觉序列补全、连接匹配颜色、解决简单的数独谜题和视觉对称性补全等任务。

不过,团队表示,目前 Veo 3 在许多任务上的表现仍不及最先进的专用模型,这与 LLM 发展的早期阶段(如 GPT-3 与精调模型的对比)非常类似。

此外,生成视频的计算成本依然相当高昂。但论文援引历史数据指出,LLM 的推理成本正以每年 9 到 900 倍的速度下降,早期被认为“部署成本过高”的通用模型,最终凭借其通用性和成本的快速下降取代了多数专用模型。如果 NLP 的发展轨迹可作为参考,同样的趋势也将在视觉领域上演。

参考资料:

1. https://arxiv.org/pdf/2509.20328

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

萌城少年强
2026-01-22 12:47:40
婆婆把我的腊肉全搬去给大姑子,第二年我没有再晒,婆婆却找上门

婆婆把我的腊肉全搬去给大姑子,第二年我没有再晒,婆婆却找上门

风起见你
2026-03-17 07:00:26
去了趟澳门,才发现:澳门的街头有多可怕

去了趟澳门,才发现:澳门的街头有多可怕

复转这些年
2026-03-16 10:47:15
詹姆斯晒伤口喊疼!调侃今年救球到此结束 祝贺东契奇当选周最佳

詹姆斯晒伤口喊疼!调侃今年救球到此结束 祝贺东契奇当选周最佳

罗说NBA
2026-03-17 06:09:30
内讧!郭昊文赵柏清刚开场就干仗,王世龙怒吼:你们干什么?不打球了

内讧!郭昊文赵柏清刚开场就干仗,王世龙怒吼:你们干什么?不打球了

818体育
2026-03-16 22:53:34
周琦23+13赛季新高!北京大胜天津夺4连胜 麦基9+10加盟全胜

周琦23+13赛季新高!北京大胜天津夺4连胜 麦基9+10加盟全胜

醉卧浮生
2026-03-16 21:20:29
落选国家队!内马尔公开发声:我很失望,但世界杯梦想绝不放弃

落选国家队!内马尔公开发声:我很失望,但世界杯梦想绝不放弃

体育闲话说
2026-03-17 07:09:54
李梦回归?中国女篮出线仅一夜,比赢球更可喜的是宫鲁鸣主动求变

李梦回归?中国女篮出线仅一夜,比赢球更可喜的是宫鲁鸣主动求变

侃球熊弟
2026-03-16 10:07:47
澳门宇树机器人因致女子受惊送医被警方带走

澳门宇树机器人因致女子受惊送医被警方带走

界面新闻
2026-03-16 18:09:04
一文读懂NBA扩军:赌城和西雅图为何被看中 森林狼去东部最合理

一文读懂NBA扩军:赌城和西雅图为何被看中 森林狼去东部最合理

罗说NBA
2026-03-17 06:19:37
领养的女儿越来越像大伯,伯母偷偷去做了鉴定,结果却让她崩溃

领养的女儿越来越像大伯,伯母偷偷去做了鉴定,结果却让她崩溃

人间百态大全
2026-02-27 06:40:03
曼联打好两场即可进欧冠!卡里克仍非拉爵理想主帅,却恐只能转正

曼联打好两场即可进欧冠!卡里克仍非拉爵理想主帅,却恐只能转正

罗米的曼联博客
2026-03-17 09:55:31
2008年15名空降兵从4999米高空跳进汶川,17年过去了他们如今怎样

2008年15名空降兵从4999米高空跳进汶川,17年过去了他们如今怎样

饭小妹说历史
2026-03-16 09:47:43
把淘汰的电脑送给了亲戚,结果她到处跟人数落我,我直接拿了回来

把淘汰的电脑送给了亲戚,结果她到处跟人数落我,我直接拿了回来

老田电脑
2026-03-16 09:18:17
曼玲粥店“糊弄式”堂食外卖,糊弄的不只有消费者 | 新京报快评

曼玲粥店“糊弄式”堂食外卖,糊弄的不只有消费者 | 新京报快评

新京报评论
2026-03-16 19:40:06
315荒诞一幕“多品牌人员用身体拦问题车进场”,更绝的是奔驰EQC车主称花50万买了个老头乐

315荒诞一幕“多品牌人员用身体拦问题车进场”,更绝的是奔驰EQC车主称花50万买了个老头乐

新浪财经
2026-03-15 18:29:13
哈萨克斯坦新宪法通过全民公投,总统托卡耶夫:历史性选择

哈萨克斯坦新宪法通过全民公投,总统托卡耶夫:历史性选择

澎湃新闻
2026-03-16 17:42:26
美国小伙埃文·凯尔官宣定居中国,在中国找到了归属感,IP定位天津;此前其因捐赠日军侵华相册与中国结缘,曾受邀参加央视春晚

美国小伙埃文·凯尔官宣定居中国,在中国找到了归属感,IP定位天津;此前其因捐赠日军侵华相册与中国结缘,曾受邀参加央视春晚

大象新闻
2026-03-16 16:49:03
中国女子泰国参加泳池派对后被抛尸后续,嫌疑人被通缉,更多细节曝光……

中国女子泰国参加泳池派对后被抛尸后续,嫌疑人被通缉,更多细节曝光……

新民周刊
2026-03-16 16:50:13
网络炸锅!用公司wifi上网,后果很严重,切记!!!

网络炸锅!用公司wifi上网,后果很严重,切记!!!

慧翔百科
2026-03-16 08:57:48
2026-03-17 10:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16429文章数 514755关注度
往期回顾 全部

科技要闻

冲击万亿美元订单!黄仁勋定下宏大目标

头条要闻

协助拦截伊朗无人机 乌克兰遭“敲打”

头条要闻

协助拦截伊朗无人机 乌克兰遭“敲打”

体育要闻

那个送老奶奶去医院的球员 成了队史第一人

娱乐要闻

姚晨曹郁发离婚声明 多年前已结束婚姻

财经要闻

我们都是被“训练”出来的大模型

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

艺术
游戏
房产
手机
公开课

艺术要闻

书法对决!王洪文江青的字竟比颜真卿差那么多?

《生化危机》新电影导演两度通关《安魂曲》称8代最恐怖

房产要闻

操作真强!保利三亚,十年腊肉盘,要大规模商改住了!

手机要闻

苹果将彻底淘汰60Hz屏!iPhone 19e喜提高刷:果粉再等2年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版