网易首页 > 网易号 > 正文 申请入驻

视频生成模型会「推理」吗?303道题全面揭示世界模型的推理短板

0
分享至



视频生成模型(Video Generative Models)是近年最炙手可热的方向。从 Sora、Veo 到 Kling、Seedance,它们能生成以假乱真的画面,对时间动态与物理规律的模拟令人惊叹。越来越多证据表明,它们已在大规模视频数据中隐式学到了某种「世界模型」(World Model)。

但一个关键问题被长期忽视:当模型生成一段看似「合理」的视频时,它真的在一帧帧地连贯推理吗?还是只画出了一个看似正确的结果?

我们把这一维度正式定义为推理一致性(Reasoning Coherence):生成视频中的事件,能否在帧与帧之间保持因果一致、可信的演化。



已有一些工作开始评估视频模型的推理:有的只看「最后一帧」判断结果对错,有的只评单个物理现象是否合理,但都没有刻画「推理一致性」,也就难以回答:到底是推理链上哪一步走错,导致了整个任务失败。

MME-CoF-Pro 基准

该团队此前已提出 MME-CoF(arXiv:2510.26802,已被 CVPR 2026 Findings 接收)——首个系统探究视频模型 Chain-of-Frame(CoF)推理潜力的研究,覆盖 12 个维度。

如今,已被 ECCV 2026 接收的 MME-CoF-Pro 在此基础上全面升级:类别从 12 扩至 16,把粗粒度定性评估升级为人工校验的过程级 Reasoning Score,并首次将「推理引导」(文字/视觉提示)作为可控变量纳入评测。



  • 论文:
  • https://arxiv.org/abs/2603.20194v1
  • 项目主页:
  • https://video-reasoning-coherence.github.io/
  • Huggingface:
  • https://huggingface.co/datasets/yqi19/mme-cof-pro
  • GitHub:
  • https://github.com/yqi19/MME-CoF-Pro

这项工作由美国东北大学(Northeastern University)联合香港中文大学(CUHK)、北京大学(Peking University)与 NVIDIA 共同完成。MME-CoF-Pro 是业界首个显式将「推理引导」作为可控变量、并在过程级别(process-level)评估视频推理一致性的基准,同时提供了细粒度的错因分析与有趣的机理发现。

数据构成



MME-CoF-Pro 共包含303个精心策划的图像 - 文字 - 视频推理样本,370张图像,覆盖16个推理类别,从 27 个现有的真实与合成基准中筛选构建,并经过领域专家三轮人工校验。

这 16 个类别被组织为四大能力组,从底层感知逐级递进到高层任务推理:

  • 感知推理(Perceptual):视觉细节、旋转、物体计数;
  • 空间与结构推理(Spatial & Structural):视觉轨迹、真实世界空间、2D / 3D 几何;
  • 物理与因果推理(Physical & Causal):物理规律、4D 动态、自然科学;
  • 任务导向推理(Task-oriented):具身操作、GUI 交互、医学影像、表格图表、文本 / 代码、视觉逻辑。



与以往工作最大的不同在于:MME-CoF-Pro 把「推理引导」当成一个可显式控制的变量。每个样本都提供 No Hint 与 Text Hint 两种设置;其中 8 个感知要求最高的类别(记为 MME-CoF-Pro-mini)还额外提供 Visual Hint。除提示部分外,其余指令完全一致:

  • No Hint(无提示):标准设置,模型只能凭任务指令独立推理;
  • Text Hint(文字提示):在指令中补充关键推理步骤的文字描述;
  • Visual Hint(视觉提示):在输入图像上画出边界框 / 箭头 / 轨迹来引导。

因为只有提示在变、其余完全相同,任何性能差异都可以因果地归因到推理引导本身。



Reasoning Score:直击推理链路的「手术刀」

传统评测只看生成「质量」,无法回答模型到底懂不懂世界。我们提出过程级指标 Reasoning Score(RS):为每个样本标注一串人工校验的关键推理步骤,每步都是正确生成必须命中的 checkpoint;RS 即被正确完成的步骤比例,由判别模型(Gemini-2.5-Flash)逐步独立判定。

它不再是「答对 / 答错」的非黑即白,而能精准定位模型在推理链的哪一步崩塌,并支持跨模型可靠比较。



测评实验

实验部分,作者全面测评了7个最强的闭源与开源视频生成模型:Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1 与 Cosmos-Predict2-14B,并在三种提示设置下系统对比,得出以下几个有趣的结论。

发现一:视频生成模型普遍不具备强推理能力,且推理能力与生成质量几乎完全解耦。

即便最强的 Veo 也仅 56 分,Sora 50 分,其余明显落后——最强也只勉强过 50 分。更值得警惕的是:高画质 ≠ 会推理。以 Kling 为例,它的综合生成质量(Avg)高达65.1,但 Reasoning Score 却低至13.8。它能把风吹树林的动态渲染得惟妙惟肖,却完全没有遵循「逐渐放大并寻找手提包」的推理指令。推理,是一种与生成质量相互独立的能力。



发现二:文字提示是一把双刃剑——看似提分,实则诱发幻觉、损害一致性。

多数模型加文字提示后 RS 提升(Veo-3.1 +4.5、Sora-2 +7.6、Cosmos +6.7),但代价是 7 个模型的一致性分数(CS)几乎全线下降,尤其 4D Dynamics 上 7 模型 CS 全降(-1.2 至 -15.6)。模型往往只在「照本宣科」执行字面指令——例如为满足运动指令凭空「分裂」出一个多余物体。显式提示更像是转移注意力,而非增强理解。

发现三:视觉提示并非万能,对精细感知任务甚至会帮倒忙。

它在结构化、需空间引导的任务(Embodied、GUI)上有帮助,却在视觉细节、物体计数等精细任务上拉低成绩(Visual Detail:Veo-3.1 RS -13.0、CS -14.4)。更有趣的是,模型常把视觉提示「画进」画面——指示方向的箭头被当成物体、渲染成弯曲轨迹。作者推测这源于训练数据偏差:标注箭头 / 高亮常与合成内容共现,模型把「引导」误当「内容」。

案例研究:提示越多,推理就越好吗?

一个自然的问题是:不断增加提示信息,能单调地提升推理表现吗?作者在 Frozen Lake 任务上用 Sora-2 做了一组渐进式 scaling 实验。



结果表明:虽然文字与视觉提示带来的推理分数普遍高于无提示基线(0.23),但两条曲线都在各阶段剧烈波动,没有清晰的上升趋势。这说明当前模型无法以累积的方式稳定地利用越来越详细的提示信息——简单地堆叠提示,并不能保证推理表现的提升。这也指向了一个开放问题:如何让视频模型把多步提示稳定地落地为连贯的推理轨迹。

人类研究:Reasoning Score 究竟靠不靠谱?

为验证 RS 是否能有效、独立地刻画视频推理能力,作者邀请 10 位标注者对随机抽取的视频按标注步骤打分,并与现有指标对比。



结果显示,Reasoning Score 与人工评分的 Spearman 相关性高达 0.61,大幅超越 Instruction Alignment(0.17),与 Pass@5 last-frame correctness 则呈负相关(-0.41)。这充分说明:RS 比现有指标更能捕捉人类视角下的推理行为,是评估推理一致性的有效指标。

结语

本文系统评测了主流视频生成模型在推理一致性上的真实水平,提出了过程级评测指标 Reasoning Score,并通过文字 / 视觉提示的可控对比,深入分析了模型的失败模式与作用机理。

核心结论令人深思:当前的视频生成模型,更多是在「跟随」提示,而非真正「理解」并落地世界规律。通往真正世界模型推理的道路上,更强的视觉对齐能力、指令理解能力与抗幻觉机制,仍是必须攻克的方向。

作者希望这些分析结果,能为视频生成模型与世界模型的未来迭代提供有价值的参考。非常欢迎感兴趣的老师同学们联系作者团队进一步交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯32强全部诞生!上半区堪称死亡半区,神仙内卷淘汰赛来了

世界杯32强全部诞生!上半区堪称死亡半区,神仙内卷淘汰赛来了

史鹷的生活科普
2026-06-28 18:17:43
贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

西楼知趣杂谈
2026-06-13 19:52:21
等不及组团访华了!荷兰急忙派人对接中方,主动搬走两国的绊脚石

等不及组团访华了!荷兰急忙派人对接中方,主动搬走两国的绊脚石

离离言几许
2026-06-28 15:52:29
那些八年前买ES8的人,还在开蔚来吗?

那些八年前买ES8的人,还在开蔚来吗?

电动星球News
2026-06-28 15:06:17
现场打脸!伊朗导弹击穿10万吨巨轮,美军林肯号全程目睹干瞪眼

现场打脸!伊朗导弹击穿10万吨巨轮,美军林肯号全程目睹干瞪眼

孤痞野猫
2026-06-28 07:02:43
5700万,再见勇士!被摆上交易货架不意外,但这次你难拯救自己

5700万,再见勇士!被摆上交易货架不意外,但这次你难拯救自己

呆哥聊球
2026-06-28 16:06:28
研究发现:木星并不是在保护地球,它其实是太阳系最危险的星球!

研究发现:木星并不是在保护地球,它其实是太阳系最危险的星球!

观察宇宙
2026-06-27 10:31:27
委内瑞拉地震时海滩裂开画面曝光:沙滩液化流动,地表多处撕裂

委内瑞拉地震时海滩裂开画面曝光:沙滩液化流动,地表多处撕裂

新京报
2026-06-28 14:14:33
两个事实证明,中国实际已经控制了面积80平方公里的南沙五方礁

两个事实证明,中国实际已经控制了面积80平方公里的南沙五方礁

流史岁月
2026-06-28 11:11:20
1-4!大连队被申花“打爆”,点球判罚引争议,后防像“纸糊”的

1-4!大连队被申花“打爆”,点球判罚引争议,后防像“纸糊”的

汪星人哟
2026-06-28 21:00:54
马斯克力挺库克涨价:内存短缺,百年一遇!美光回怼:涨了45美元,苹果就涨250美元!网友:不好,特斯拉是不是要涨价了?

马斯克力挺库克涨价:内存短缺,百年一遇!美光回怼:涨了45美元,苹果就涨250美元!网友:不好,特斯拉是不是要涨价了?

大白聊IT
2026-06-28 12:22:32
克洛普:梅西、C罗和萨拉赫都不完美,但比我们更接近完美

克洛普:梅西、C罗和萨拉赫都不完美,但比我们更接近完美

懂球帝
2026-06-28 21:27:47
中到大雨!局部暴雨!江苏接下来……

中到大雨!局部暴雨!江苏接下来……

江苏警方
2026-06-28 18:35:27
朴智星:我们明明学了10年如何踢世界杯,却又全部忘干净了

朴智星:我们明明学了10年如何踢世界杯,却又全部忘干净了

懂球帝
2026-06-28 11:10:13
你的面子走不了

你的面子走不了

求实处
2026-06-27 22:10:03
54岁吴越下厨被拍,单身生活细节让无数人沉默

54岁吴越下厨被拍,单身生活细节让无数人沉默

天马幸福的人生
2026-05-31 14:54:35
高志凯“爱国赛道”弯道超车,直接超越金灿荣、张维为两位前辈

高志凯“爱国赛道”弯道超车,直接超越金灿荣、张维为两位前辈

壹家言
2026-06-28 07:02:39
女孩高考后产子,宁死不肯说孩子父亲是谁,父母查清真相后崩溃哭

女孩高考后产子,宁死不肯说孩子父亲是谁,父母查清真相后崩溃哭

手工制作阿爱
2026-06-28 19:23:23
他多次刁难徐向前,被称为整人专家,遭撤职后求助韩先楚结果如何

他多次刁难徐向前,被称为整人专家,遭撤职后求助韩先楚结果如何

云霄纪史观
2026-06-28 00:27:35
就在明天!半导体零部件龙头来了

就在明天!半导体零部件龙头来了

21世纪经济报道
2026-06-28 17:29:22
2026-06-28 21:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13379文章数 142681关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

C罗变了连续7场没过人 淘汰赛将对战老队友莫德里奇

头条要闻

C罗变了连续7场没过人 淘汰赛将对战老队友莫德里奇

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

游戏
房产
教育
本地
健康

《收获日2》迎底层大更新 容量从86GB降至32GB

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

教育要闻

教育哲学精品课,道家老子与庄子的教育思想

本地新闻

世界杯球迷节:比球赛更好玩的派对

“无糖汤圆”是否隐藏着健康陷阱?

无障碍浏览 进入关怀版