网易首页 > 网易号 > 正文 申请入驻

视频模型「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

0
分享至



近年来,以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力,能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步,表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是,Google 的最新研究指出,诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”,包括感知、建模和推理等更高层次能力。

这催生出一个与语言模型 “思维链”(Chain-of-Thought, CoT)相对应的新概念 ——Chain-of-Frame(CoF)。其核心思想是:模型通过逐帧生成视频,以连贯的视觉推演方式逐步解决问题。然而,一个关键疑问仍未解决:这些模型是否真正具备零样本推理(Zero-Shot Reasoning)的能力?抑或它们只是在模仿训练数据中出现过的表面模式?

为探究这一问题,来自香港中文大学、北京大学、东北大学的研究团队进行了系统性研究,对 Veo 3 等模型的零样本推理潜力进行了深入评估,并提出了涵盖空间、几何、物理、时间等 12 个推理维度的综合测试基准 ——MME-CoF。



  • 论文题目:Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
  • 论文链接:https://arxiv.org/pdf/2510.26802v1
  • 项目主页:https://video-cof.github.io/



什么是 Chain-of-Frame(CoF)推理?


“帧链推理” 可以视作语言中 “思维链”(CoT)的视觉类比:

  • CoT 通过逐步生成文字展现推理路径。
  • CoF 则通过逐帧生成画面,使场景在视觉上不断演化,从而体现推演过程。

深入分析:12 项推理挑战

为全面揭示视频模型的推理潜力,研究团队设计了 12 个维度的测试任务,对 Veo 3 进行了系统的实证分析。以下选取其中三个典型维度进行说明(其余部分可参阅原论文)。

1. 真实世界空间推理(Real-World Spatial Reasoning)



  • 任务: 评估模型在多视角自然场景中保持空间一致性的能力,包括视角变化、方位对齐与参考系稳定性。
  • 发现: 能较好处理简单场景下的空间布局与视角切换,局部场景保持合理的空间关系与方向一致。
  • 局限: 在复杂视角变化或深度理解任务中表现不稳,常出现空间错位、视角漂移或方向混乱,难以维持全局坐标一致性。

2. 3D 几何推理(3D Geometry Reasoning)



  • 任务: 评估模型在三维几何变换任务中的结构理解与连续性表现,如物体折叠、旋转与立体重构。
  • 发现: 在单步、简单几何变换中可生成结构完整且视觉连贯的结果,具备初步的三维形态理解能力。
  • 局限: 多步或组合性变换中常出现结构错位、自交或崩塌,无法维持几何一致与物理合理性,整体三维推理仍脆弱。

3. 2D 几何推理(2D Geometry Reasoning)



  • 任务: 评估模型在平面几何构造与图形操作任务中的准确性与约束保持能力,如点连线、形状移动和构图顺序理解。
  • 发现: 在简单几何连接任务中可识别并正确绘制基本关系,呈现初步几何构造能力。
  • 局限: 易优先生成视觉上美观的图形而非严格几何符合,常出现连线顺序错误、形状变形或持续绘制超出任务范围,缺乏稳定的几何约束意识。

其他六个推理维度概览

除上述三项外,其余九个维度同样揭示了 Veo 3 的限制:

  • 视觉细节推理(Visual Detail Reasoning):对被遮挡或微小目标的识别不稳,生成内容易偏离任务要求。
  • 视觉追踪推理(Visual Trace Reasoning):长时序依赖和规则驱动的动作链容易中断,因果一致性不足。
  • 物理推理(Physics-Based Reasoning):未能准确遵循能量、力学等物理规律,仅表现为视觉层面的 “模拟”。
  • 旋转推理(Rotation Reasoning):小角度旋转可近似实现,大角度下结构崩坏。
  • 图表推理(Table & Chart Reasoning):可模仿局部视觉模式,但缺乏对数值关系的真实理解。
  • 物体计数(Object Counting Reasoning):在静态场景下表现良好,但动态环境中常出现漏数或重复。
  • GUI 推理(GUI Reasoning):能生成点击或拖动动作,但对操作目的与逻辑缺乏认知。
  • 具身推理(Embodied Reasoning):能识别物体位置与动作,但不遵守环境规则,偶有 “作弊式” 生成。
  • 医学推理(Medical Reasoning):在放大或观察局部细节时具备表面能力,但无法保持影像逻辑一致,易出现结构性错误。

MME-CoF:首个视频推理基准

研究团队基于上述实证研究整理了 MME-CoF 基准,以标准化方式评估视频模型的推理潜能。其主要特征包括:

  • 首个系统量化视频模型推理能力的框架;
  • 覆盖 12 个维度、59 个精心设计任务;
  • 提示式设计创新:将抽象推理任务(如物理、几何、计数)转化为可视化视频生成挑战,迫使模型通过 “帧链推理” 展现过程性思考。



下表展示了多种视频生成模型在 MME-CoF 基准上的评测结果,评分由 Gemini-2.5-Pro 完成,量表范围为 0–4。研究团队从五个维度进行评估。整体来看,各模型的平均得分普遍低于 2 分。



结论:推理还是表演?

综合 Veo 3 的实证分析,基于对众多视频模型的定量评估结果,研究者得出以下结论:

1. 尚不具备独立的零样本推理能力 —— 模型主要依赖数据模式,而非逻辑推演。

2. 强生成 ≠ 强推理 —— 其表现更多来自模式记忆与视觉一致性,而非概念理解。

3. 注重表象而非因果 —— 模型生成的结果往往 “看起来对”,但逻辑上并不成立。

4. 未来仍具潜力 —— 可作为视觉推理系统的有力补充模块,与逻辑模型协同构建更完整的多模态智能体系。

总体而言,这项研究为学界提供了清晰系统的实证分析和评估框架,揭示了视频生成模型在从 “生成” 迈向 “推理”、实现真正的 “通用视觉模型” 的过程中尚需跨越的关键鸿沟。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄天鹅就鸡蛋角黄素抽检结果发布声明

黄天鹅就鸡蛋角黄素抽检结果发布声明

澎湃新闻
2026-03-25 15:39:05
9020mAh!新机官宣:3月26日,正式发布上市!

9020mAh!新机官宣:3月26日,正式发布上市!

科技堡垒
2026-03-26 11:29:06
历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

球童无忌
2026-03-25 16:56:03
一夜之间,这两个城市房价上涨了!

一夜之间,这两个城市房价上涨了!

靓仔情感
2026-03-26 13:57:14
举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

懂球帝
2026-03-26 10:15:02
毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

诺言卿史录
2026-03-26 09:06:41
伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

Ck的蜜糖
2026-03-26 16:57:49
湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

观察者网
2026-03-25 21:33:09
广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

晚雾空青
2026-03-26 16:09:03
悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

火山詩话
2026-03-15 10:23:17
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

二胡的岁月如歌
2026-03-26 14:50:14
正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

雅儿姐在遛弯
2026-03-26 08:24:39
大瓜!张雪峰女儿只能分得16.5%遗产

大瓜!张雪峰女儿只能分得16.5%遗产

兰亭墨未干
2026-03-26 14:52:45
490亿元的大项目即将开建!!

490亿元的大项目即将开建!!

新浪财经
2026-03-26 11:14:48
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

刘蕳爱下厨
2026-03-25 15:08:52
美以联合空袭伊拉克

美以联合空袭伊拉克

第一财经资讯
2026-03-26 12:56:50
快讯!美国要打大仗了!

快讯!美国要打大仗了!

达文西看世界
2026-03-26 09:29:08
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
2026-03-26 17:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
房产
健康
手机

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

转头就晕的耳石症,能开车上班吗?

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

无障碍浏览 进入关怀版