网易首页 > 网易号 > 正文 申请入驻

DeepMind率先提出CoF:视频模型有自己的思维链

0
分享至

CoT思维链的下一步是什么?

DeepMind提出帧链CoF(chain-of-frames)

  • 逐帧视频生成类似于语言模型中的链式思维。就像链式思维(CoT)使语言模型能够用符号进行推理一样,“帧链”(CoF)使视频模型能够在时间和空间上进行推理。

以上观点来自DeepMind最新公开的Veo 3论文,类比语言模型中的CoT,他们首次提出了CoF这一概念。



并且,团队通过大量测试发现——

以Veo 3为代表的视频模型正在发展通用视觉理解能力,可以零样本解决从“看”到“想”的全链条视觉任务,而且进步飞快,未来有望成为机器视觉的“通用基础模型”。

更简单粗暴的总结就是,“Veo 3是视觉推理领域的GPT-3时刻”。



Anyway,要想深入理解这一新概念以及其价值意义,还是先来看看论文原文吧——

DeepMind首次提出CoF概念

据论文介绍,CoF的提出源于DeepMind团队的一个好奇:

视频生成模型能不能像ChatGPT这类大语言模型(LLM)一样,不用专门练某个任务,就能搞定各种视觉工作,最终变成“通用视觉基础模型”?

为什么追求通用?主要是现在的机器视觉领域还停留在“NLP的老阶段”——

要分割物体就得用“Segment Anything”、要检测物体就得用YOLO、换个任务就得重新调模型、甚至重训……



既然现在的视频生成模型和LLM用的是同一套底层逻辑——用海量数据“大力出奇迹”,那说明通用视觉并非无稽之谈。

为了验证这一猜想,团队用了一个非常简单粗暴的方法:只给提示,不搞特殊训练。通过Google的API,给模型“一张初始图(当第一帧)+ 一段文字指令”,让模型生成8秒、720p的视频。

这和LLM“用提示替代专属训练”的逻辑完全一致,目的就是为了验证模型的原生通用能力,纯靠模型自己去完成任务。

而通过一系列测试,团队发现视频模型真的具备通用潜力

具体而言,他们以Veo 3为实验对象,发现其具备四大能力(层层递进):

第一,不用专门训练,Veo 3就能搞定很多经典视觉任务,具备感知能力。

无论是基础任务(如把模糊图变清晰),还是复杂任务(如在一堆东西里找“蓝色的球”),它都能轻松应对。





第二,光看明白还不够,Veo 3还能“建立视觉世界的规则”,具备建模能力。

这体现在它既懂物理(如知道石头会沉),又懂抽象关系(如把能装进背包的东西放进去)上。





第三,基于“看明白”和“懂规律”,Veo 3还能主动改变视觉世界,具备操控能力。

比如改改图(给小鸟加上围巾、置身雪景),或者搞3D和模拟(让骑士从朝前变成单膝跪地)。





第四,整合前面的能力,Veo 3可以实现跨时空视觉推理,也就是所谓的CoF帧链。

给它一道解迷宫的难题:让红点从起点沿白色路径走到绿点。



Veo 3能生成红点一步步规划路径的视频,不碰黑墙。5×5迷宫玩了10次,Veo 3成功率78%,Veo 2才14%。

更多推理测试也表明,虽然推理能力还不完美(复杂的旋转类比会出错),但已经能看到“视觉智能的雏形”了。

整体而言,团队通过测试得出了以下三个核心结论:

1、经过对62项定性任务7项定量任务中生成的18384个视频的分析,团队发现Veo 3能够解决许多它未曾接受过训练或调整的任务。

2、Veo 3利用其感知、建模和操作视觉世界的能力,展现出了类似“帧链(CoF)”的视觉推理的早期形态

3、尽管针对特定任务定制的模型在零样本视频模型中表现更优,但团队观察到从Veo 2到Veo 3的性能有了显著且一致的提升,这表明视频模型的能力正在迅速发展。

“通才会取代专才”

此外,基于Veo 3当前的表现以及成本可能持续下降的预测,DeepMind也大胆开麦:

在视频模型领域,未来“通才”会取代“专才”

具体而言,Veo 3作为通用视频模型,在特定任务上确实仍落后于专用SOTA模型,如边缘检测精度不及专门优化的算法。

但从发展趋势看,这种差距正随模型能力快速提升而缩小,类似早期大语言模型(如GPT-3)虽整体不如任务微调模型,但通过架构、数据与训练方法的演进,最终成长为强大的通用基础模型。

比如相比前一代Veo 2,Veo 3在短期内全面升级。这证明模型的通用视觉与生成能力正处于快速上升期,类比2020年前后LLM的突飞猛进阶段。

其次,通过多尝试(pass@10) 策略,即同一任务多次生成并择优,Veo 3性能显著高于单次生成,且随着尝试次数增加仍有提升空间,无明显上限。而且结合推理时缩放、RLHF指令微调等技术,Veo 3性能仍有望进一步提升。

此外,尽管目前视频生成的成本高于专用任务模型,但根据Epoch AI的数据——LLM推理成本每年下降9~900倍,且NLP早期通用模型(如GPT-3)也曾因成本被质疑,但最终因“通用价值+成本下降”替代了专属模型

因此,大概率机器视觉会走上同样路径,未来视频模型的成本问题将逐步得到解决。

总而言之,DeepMind对通用视频模型可谓信心满满。

而此次提出的新概念CoF,也正如网友所言,有望和当初的CoT一样,为视频模型开辟出新的道路。



论文:
https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:24:44
跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

中国能源网
2026-03-26 14:13:04
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

上观新闻
2026-03-26 19:36:04
4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

侃球熊弟
2026-03-26 00:35:10
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

车知事
2026-03-26 21:34:27
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

史政先锋
2026-03-26 20:22:48
2026-03-26 23:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
旅游
数码
军事航空

艺术要闻

哪一座桥不是风景?

教育要闻

天天学习|走进课堂的“大朋友”

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版