网易首页 > 网易号 > 正文 申请入驻

视频模型「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

0
分享至



近年来,以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力,能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步,表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是,Google 的最新研究指出,诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”,包括感知、建模和推理等更高层次能力。

这催生出一个与语言模型 “思维链”(Chain-of-Thought, CoT)相对应的新概念 ——Chain-of-Frame(CoF)。其核心思想是:模型通过逐帧生成视频,以连贯的视觉推演方式逐步解决问题。然而,一个关键疑问仍未解决:这些模型是否真正具备零样本推理(Zero-Shot Reasoning)的能力?抑或它们只是在模仿训练数据中出现过的表面模式?

为探究这一问题,来自香港中文大学、北京大学、东北大学的研究团队进行了系统性研究,对 Veo 3 等模型的零样本推理潜力进行了深入评估,并提出了涵盖空间、几何、物理、时间等 12 个推理维度的综合测试基准 ——MME-CoF。



  • 论文题目:Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
  • 论文链接:https://arxiv.org/pdf/2510.26802v1
  • 项目主页:https://video-cof.github.io/



什么是 Chain-of-Frame(CoF)推理?


“帧链推理” 可以视作语言中 “思维链”(CoT)的视觉类比:

  • CoT 通过逐步生成文字展现推理路径。
  • CoF 则通过逐帧生成画面,使场景在视觉上不断演化,从而体现推演过程。

深入分析:12 项推理挑战

为全面揭示视频模型的推理潜力,研究团队设计了 12 个维度的测试任务,对 Veo 3 进行了系统的实证分析。以下选取其中三个典型维度进行说明(其余部分可参阅原论文)。

1. 真实世界空间推理(Real-World Spatial Reasoning)



  • 任务: 评估模型在多视角自然场景中保持空间一致性的能力,包括视角变化、方位对齐与参考系稳定性。
  • 发现: 能较好处理简单场景下的空间布局与视角切换,局部场景保持合理的空间关系与方向一致。
  • 局限: 在复杂视角变化或深度理解任务中表现不稳,常出现空间错位、视角漂移或方向混乱,难以维持全局坐标一致性。

2. 3D 几何推理(3D Geometry Reasoning)



  • 任务: 评估模型在三维几何变换任务中的结构理解与连续性表现,如物体折叠、旋转与立体重构。
  • 发现: 在单步、简单几何变换中可生成结构完整且视觉连贯的结果,具备初步的三维形态理解能力。
  • 局限: 多步或组合性变换中常出现结构错位、自交或崩塌,无法维持几何一致与物理合理性,整体三维推理仍脆弱。

3. 2D 几何推理(2D Geometry Reasoning)



  • 任务: 评估模型在平面几何构造与图形操作任务中的准确性与约束保持能力,如点连线、形状移动和构图顺序理解。
  • 发现: 在简单几何连接任务中可识别并正确绘制基本关系,呈现初步几何构造能力。
  • 局限: 易优先生成视觉上美观的图形而非严格几何符合,常出现连线顺序错误、形状变形或持续绘制超出任务范围,缺乏稳定的几何约束意识。

其他六个推理维度概览

除上述三项外,其余九个维度同样揭示了 Veo 3 的限制:

  • 视觉细节推理(Visual Detail Reasoning):对被遮挡或微小目标的识别不稳,生成内容易偏离任务要求。
  • 视觉追踪推理(Visual Trace Reasoning):长时序依赖和规则驱动的动作链容易中断,因果一致性不足。
  • 物理推理(Physics-Based Reasoning):未能准确遵循能量、力学等物理规律,仅表现为视觉层面的 “模拟”。
  • 旋转推理(Rotation Reasoning):小角度旋转可近似实现,大角度下结构崩坏。
  • 图表推理(Table & Chart Reasoning):可模仿局部视觉模式,但缺乏对数值关系的真实理解。
  • 物体计数(Object Counting Reasoning):在静态场景下表现良好,但动态环境中常出现漏数或重复。
  • GUI 推理(GUI Reasoning):能生成点击或拖动动作,但对操作目的与逻辑缺乏认知。
  • 具身推理(Embodied Reasoning):能识别物体位置与动作,但不遵守环境规则,偶有 “作弊式” 生成。
  • 医学推理(Medical Reasoning):在放大或观察局部细节时具备表面能力,但无法保持影像逻辑一致,易出现结构性错误。

MME-CoF:首个视频推理基准

研究团队基于上述实证研究整理了 MME-CoF 基准,以标准化方式评估视频模型的推理潜能。其主要特征包括:

  • 首个系统量化视频模型推理能力的框架;
  • 覆盖 12 个维度、59 个精心设计任务;
  • 提示式设计创新:将抽象推理任务(如物理、几何、计数)转化为可视化视频生成挑战,迫使模型通过 “帧链推理” 展现过程性思考。



下表展示了多种视频生成模型在 MME-CoF 基准上的评测结果,评分由 Gemini-2.5-Pro 完成,量表范围为 0–4。研究团队从五个维度进行评估。整体来看,各模型的平均得分普遍低于 2 分。



结论:推理还是表演?

综合 Veo 3 的实证分析,基于对众多视频模型的定量评估结果,研究者得出以下结论:

1. 尚不具备独立的零样本推理能力 —— 模型主要依赖数据模式,而非逻辑推演。

2. 强生成 ≠ 强推理 —— 其表现更多来自模式记忆与视觉一致性,而非概念理解。

3. 注重表象而非因果 —— 模型生成的结果往往 “看起来对”,但逻辑上并不成立。

4. 未来仍具潜力 —— 可作为视觉推理系统的有力补充模块,与逻辑模型协同构建更完整的多模态智能体系。

总体而言,这项研究为学界提供了清晰系统的实证分析和评估框架,揭示了视频生成模型在从 “生成” 迈向 “推理”、实现真正的 “通用视觉模型” 的过程中尚需跨越的关键鸿沟。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国一邮轮放弃日本靠岸,取消乘客下船

中国一邮轮放弃日本靠岸,取消乘客下船

极目新闻
2025-11-19 17:58:05
我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

掠影后有感
2025-11-18 11:14:38
日经225指数涨幅扩大至2.2%

日经225指数涨幅扩大至2.2%

每日经济新闻
2025-11-20 08:09:04
可耻的是,捅郭伟马蜂窝的是个学生

可耻的是,捅郭伟马蜂窝的是个学生

关尔东
2025-11-19 17:13:25
被中国连环反制后,日本极端右翼调转枪口,对准高市早苗

被中国连环反制后,日本极端右翼调转枪口,对准高市早苗

沧海旅行家
2025-11-19 16:58:11
中反制日接招,中日较量持续升级,关系倒退数十年

中反制日接招,中日较量持续升级,关系倒退数十年

今日段评
2025-11-20 08:00:17
透视小米三季报:当下业绩远非终点,而是新一轮跃迁的开始

透视小米三季报:当下业绩远非终点,而是新一轮跃迁的开始

砺石商业评论
2025-11-20 09:59:13
施一公:这是中国潜伏的最大危机!(发人深省)

施一公:这是中国潜伏的最大危机!(发人深省)

霹雳炮
2025-11-18 20:38:34
沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

兴趣知识
2025-11-17 15:39:26
一个人城府深到可怕的10种表现(想要保护自己,必修城府心)

一个人城府深到可怕的10种表现(想要保护自己,必修城府心)

诗词中国
2025-11-16 19:43:12
凌晨5:00,一声巨响

凌晨5:00,一声巨响

贩财局
2025-11-20 09:19:54
不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

环球策论
2025-11-19 00:10:39
别被新闻给误导了,这才是高市早苗的真相

别被新闻给误导了,这才是高市早苗的真相

少年一白
2025-11-18 12:03:56
Gemini 3 强得有点不太像阳间的东西。

Gemini 3 强得有点不太像阳间的东西。

差评XPIN
2025-11-20 00:09:23
库里缺席勇士惨负热火吞2连败 鲍威尔25分波杰20+8

库里缺席勇士惨负热火吞2连败 鲍威尔25分波杰20+8

醉卧浮生
2025-11-20 10:57:35
广西桂林市委原书记周家斌被公诉,曾被批妄议党中央大政方针、结交政治骗子

广西桂林市委原书记周家斌被公诉,曾被批妄议党中央大政方针、结交政治骗子

极目新闻
2025-11-20 10:23:19
日本称已向美国出口爱国者导弹

日本称已向美国出口爱国者导弹

界面新闻
2025-11-20 10:43:18
中方暂停进口日本水产品,日本学者:高市早苗让日本国民成了牺牲品

中方暂停进口日本水产品,日本学者:高市早苗让日本国民成了牺牲品

环球网资讯
2025-11-20 07:15:05
申京28+11+7火箭击退骑士收获5连胜,杜兰特20+3米切尔21分

申京28+11+7火箭击退骑士收获5连胜,杜兰特20+3米切尔21分

湖人崛起
2025-11-20 10:42:41
中央批准:刘承功同志任中山大学党委书记

中央批准:刘承功同志任中山大学党委书记

新京报政事儿
2025-11-20 10:28:41
2025-11-20 11:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11759文章数 142508关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

英伟达财报,超预期

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

亲子
艺术
房产
游戏
公开课

亲子要闻

萌娃吃饭时打瞌睡,一闻到食物气味立刻醒来,网友:以后绝对是个小吃货

艺术要闻

陈洪绶:花鸟册二十开

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

内部人士爆料《生化危机9》主线时长略短于《生化4》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版