网易首页 > 网易号 > 正文 申请入驻

CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」?

0
分享至

来源:市场资讯

(来源:机器之心)


引言:延长 CoT 曾在语言模型中显著提升了推理能力,但显式多步推理耗费 token 多、时间长,在高频实时响应的 C 端 agentic 场景中难以满足需求。同时随着 CoT 在提高语言模型推理能力上的红利逐步释放后,研究者开始尝试将这一思路延伸到视觉领域:CoF(Chain-of-Frames)提供了一种潜在的帧链推理框架,有望进一步改善视频生成与理解中的帧间一致性问题。

目录

01. 帧间一致性不足,CoF 为视频生成和理解模型带来新思路?

CoT 只是「语言的表层叙事」,而非真正的推理?CoF 如何把「语言的思维链」转译为「视频的帧链」?...

02.帧级语义显式融入能否成为解决视频模型 temporal consistency 的关键?

CoF 为何被认为可能成为视频生成模型的「新范式」,它相较传统帧间一致性优化方法的优势如何?从 CoF-Data 到 VChain,研究者如何把「推理链」嵌进每一帧画面?...

03.CoF 前,视频帧间一致性如何保障?

在 CoF 出现之前,视频模型靠什么维系「帧间一致性」?...

01 帧间一致性不足,CoF 为视频生成和理解模型带来新思路?

1、近年来,大语言模型由于引入了 CoT 推理而在复杂任务上取得了较为显著的突破。然而,也有研究者陆续质疑 CoT 的本质和可持续性。

2、今年 7 月,有研究者指出 CoT 更像是一种语言表层的连贯叙事,而非真实的内在推理,并认为 CoT 更多是「对奖赏函数的适应性生成」,而非模型的真实思考过程。[2-1]

① 与此同时,LLM 在推理任务上依赖 CoT 的可监控性方案也被证明是脆弱的。

3、以上观点反映出对 CoT 范式的普遍担忧,即 CoT 虽然能在多步推理题上提高准确率,但其作为推理透明度或模型内在机制的指示作用并不可靠。

4、在这种唱衰 CoT 的大背景下,视觉领域的相关研究者提出了与 CoT 类似的「帧链 CoF」(Chain-of-Frames)概念。它借鉴了 CoT 的思想,但针对具有时间连续性的视觉数据。

5、过往视频生成与理解大模型生成式视频模型由于逐帧生成的特性,往往难以保证帧间一致性(temporal consistency),尤其在复杂场景中跨帧逻辑容易出现断裂。传统方法主要依赖平滑过渡和隐式特征对齐,但在复杂场景中仍难以保证跨帧的逻辑连贯性。

6、今年 9 月,Google DeepMind 团队发表论文首次从理论层面引入了 CoF 概念。他们认为,大规模训练的视频生成模型(如 Veo 3)正在成为通用视觉基础模型,类似 LLM 在 NLP 的角色;而生成式视频模型天生具备逐帧生成的结构,正适合通过帧链式推理来提升帧间一致性。[2-2]

① 具体而言,CoF 让视频模型「观看即思考」,它们不仅填充视觉细节,更通过每一帧的连续演化固化推理逻辑。

② 研究者表明,LLM 通过顺序的文本步骤分解推理过程,而视频模型在时空连续生成内容,每一帧都成为动态过程中的一步推理,形成了帧链推理结构。

③ 经研究者测试,Veo 3 等模型不仅能在无微调条件下完成图像分割、边缘检测等感知任务,还在物理建模(如浮力、反射)和复杂逻辑(如迷宫求解)等任务上表现优异。

7、CoF 强调显式的语义推理链,让模型「思考」每一帧而不仅仅是连续补全帧间细节。[2-3]

① DeepMind 研究团队强调,Veo 3 等视频模型是在大规模多样化视频数据和语言指令提示的联合训练下获得这些能力的。它们并未针对每项任务进行专门标注或微调,而是像视觉领域的 GPT 一样,通过提示引导生成。

② 以上的设计使得模型本身具有强大的泛化能力,既可以通过一套简单的自然语言指令就能驱动模型完成各种任务,无需为每个任务训练不同的模型。

02 帧级语义显式融入能否成为解决视频模型 temporal consistency 的关键?

1、CoF 利用逐帧生成的方式,为视频模型提供了一种天然的时序推理框架。它将 CoT 的多步推理思想移植到视觉生成领域,使视频模型能够以帧为单位进行推理,从而更好解决视频生成与理解大模型的帧间一致性(temporal consistency)问题。

① 与传统依赖隐式特征对齐或平滑过渡的方法不同,CoF 通过显式推理链确保每一帧都遵循逻辑演化,减少跨帧不连贯和细节丢失。

2、以上机制的核心逻辑在于,将帧级语义信息显式融入视频模型,从而显著提高模型的推理能力和跨帧一致性。

3、除了 DeepMind 提出的 CoF 概念外,近期学术界也出现了多种显式利用帧级推理链的视频理解生成技术方案。它们通常引入帧选择、链式推理追踪或关键帧指导等机制,将逻辑推理嵌入视频处理流程。...

关注「机器之心PRO会员」,前往「收件箱」查看完整解读


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度首都发生恐怖袭击,莫迪或随时按下开战按钮,歼10C又将发威

印度首都发生恐怖袭击,莫迪或随时按下开战按钮,歼10C又将发威

头条爆料007
2025-11-11 21:37:01
亚马逊再裁员1.4万,有国内部门腰斩

亚马逊再裁员1.4万,有国内部门腰斩

慢放
2025-11-11 15:35:29
特朗普心急如焚,关税战不但没打赢中国,美国可能要倒赔2万亿

特朗普心急如焚,关税战不但没打赢中国,美国可能要倒赔2万亿

头条爆料007
2025-11-11 20:32:58
重磅:曝乌克兰用“火烈鸟”导弹摧毁俄罗斯的图阿普谢港!

重磅:曝乌克兰用“火烈鸟”导弹摧毁俄罗斯的图阿普谢港!

项鹏飞
2025-11-11 19:38:27
耿直boy+1!18岁复旦学子击败潘展乐孙杨夺冠,赛后回应亮了

耿直boy+1!18岁复旦学子击败潘展乐孙杨夺冠,赛后回应亮了

青春上海
2025-11-11 11:35:14
国家广电总局关于撤销机顶盒的重要消息

国家广电总局关于撤销机顶盒的重要消息

小柱解说游戏
2025-11-09 14:50:37
印度网球选手前往中国参赛遭拒签,社媒求助中国驻印度大使馆

印度网球选手前往中国参赛遭拒签,社媒求助中国驻印度大使馆

懂球帝
2025-11-11 18:52:03
外卖大战太惨了:阿里亏360亿、美团亏200亿,拉低中国互联网盈利三成?

外卖大战太惨了:阿里亏360亿、美团亏200亿,拉低中国互联网盈利三成?

开柒
2025-11-11 18:30:46
震惊!撞了仨人,她第一眼在乎居然是自己的摩托车

震惊!撞了仨人,她第一眼在乎居然是自己的摩托车

熊太行
2025-11-11 18:01:42
官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

懂球帝
2025-11-11 18:01:10
中方将向菲律宾提供现汇和紧急物资援助,台风“海鸥”已致菲律宾200多人死亡

中方将向菲律宾提供现汇和紧急物资援助,台风“海鸥”已致菲律宾200多人死亡

鲁中晨报
2025-11-11 19:51:02
李连杰怎么突然年轻30岁?知情人曝关键线索:看他的手

李连杰怎么突然年轻30岁?知情人曝关键线索:看他的手

精彩背后的故事
2025-11-12 01:08:24
中国银行等多家银行宣布将关停部分App

中国银行等多家银行宣布将关停部分App

每日经济新闻
2025-11-11 08:36:48
一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

木蹊说
2025-11-11 16:06:19
16级大风+大暴雨!具有灾难性破坏力!今年最大的台风要来了

16级大风+大暴雨!具有灾难性破坏力!今年最大的台风要来了

深圳晚报
2025-11-11 07:59:35
“比特币富婆”钱志敏洗钱案宣判在即,最高面临14年监禁 听证会披露其奢靡生活

“比特币富婆”钱志敏洗钱案宣判在即,最高面临14年监禁 听证会披露其奢靡生活

红星新闻
2025-11-11 19:05:17
敢碰台湾问题?中国驻日大阪总领事警告日本:勿忘 “敌国条款”!

敢碰台湾问题?中国驻日大阪总领事警告日本:勿忘 “敌国条款”!

不掉线电波
2025-11-11 11:08:03
美福特号航母进入加勒比海

美福特号航母进入加勒比海

界面新闻
2025-11-11 22:44:34
赵鸿刚参加扇耳光大赛后公布病历 医生:完全恢复已不可能

赵鸿刚参加扇耳光大赛后公布病历 医生:完全恢复已不可能

看看新闻Knews
2025-11-11 13:52:04
央视直播,国足VS越南,冲3-0开门红,邵佳一督战,首发11人浮现

央视直播,国足VS越南,冲3-0开门红,邵佳一督战,首发11人浮现

球场没跑道
2025-11-11 21:34:38
2025-11-12 05:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1351352文章数 4444关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

数码
健康
艺术
手机
时尚

数码要闻

索尼多款相机固件更新,修复充电低电量提示等问题

超声探头会加重受伤情况吗?

艺术要闻

美得令人窒息!印度美女照片震撼上线!

手机要闻

小米10000mAh电池量产落地,REDMI中端机率先搭载,你期待吗?

舒淇,东亚女孩的恨海情天

无障碍浏览 进入关怀版