网易首页 > 网易号 > 正文 申请入驻

视频模型假装在推理?MME-CoF新基准评估12个推理维度

0
分享至


新智元报道

编辑:LRST

【新智元导读】视频生成模型如Veo-3能生成逼真视频,但有研究发现其推理能力存疑。香港中文大学、北京大学、东北大学的研究者们设计了12项测试,发现模型只能模仿表面模式,未真正理解因果。这项研究为视频模型推理能力评估提供基准,指明未来研究方向。

近年来,以Veo、Sora为代表的视频生成模型,已经能够合成高度逼真且连贯的视频,这表明它们可能成功编码了大量世界知识。

谷歌的最新研究甚至指出,Veo-3这类模型正超越单纯的内容生成,展示出无需特定训练即可进行感知、建模和推理等「涌现能力」。

这引出了一个类似大语言模型(LLM)中「思维链」(Chain-of-Thought, CoT)的新概念——Chain-of-Frame(CoF)

其核心思想是:模型通过逐帧生成视频来逐步推演和解决问题。

然而,一个关键问题仍然存在:视频模型是真的具备零样本(Zero-Shot)推理能力,还是仅仅在「模仿」训练数据的表面模式?

为回答这一问题,来自香港中文大学、北京大学、东北大学的研究者们开展了一项系统的实证研究,全面评估以Veo-3为代表的视频模型在零样本场景下的推理潜力,并整理了涵盖空间、几何、物理、时间等12个推理维度的新基准测试MME-CoF


论文地址:https://arxiv.org/pdf/2510.26802v1

项目地址:https://video-cof.github.io/


什么是Chain-of-Frame(CoF) 推理?

Chain-of-Frame(CoF)推理可类比于LLM的「思维链」(CoT)。

LLM中的CoT是通过生成一步步文本来进行推理。

视频模型中的CoF则是通过逐帧生成视频序列,迭代更新和演进场景。

例如,要模型回答一个复杂空间问题,不再直接输出答案,而是要求它生成一个「解决问题的过程视频」。研究者希望探索,这种CoF过程能否让模型真正涌现出通用的视觉推理能力。

深度剖析:Veo-3的12维考验



为全面评估 Veo-3 的零样本推理潜力,研究团队从多角度设计了 12 个推理维度。下面列举其中三个典型维度,以展示模型在实际任务中的表现,其他维度的详细设计与结果可参见原论文。

1. 视觉细节推理(Visual Detail Reasoning)


任务:评估模型辨别和维持细粒度视觉属性(如颜色、纹理)及空间关系(如左右方位)。

发现:在视觉显著、易定位的目标上表现良好。

局限:目标过小、被遮挡或处于杂乱背景时,定位失败,推理能力下降;生成可能带有风格化偏差,虽然表面合理但偏离指令。

视觉追踪推理(Visual Trace Reasoning)


任务:评估模型在序列动作(如走迷宫、多步操作)中的因果连续性。

发现:在简单、低分支场景中可生成局部连贯的短时序路径。

局限:长时序规划或规则驱动序列任务无法可靠执行,复杂因果链条失效。

物理推理(Physics-based Reasoning)


任务:评估模型描绘运动动力学、物理因果关系及基于规则的互动(如重力、碰撞、摩擦力)。

发现:能够生成短期、表面合理的动态效果。

局限:系统性违反定量物理约束(如能量守恒、机械规则);无法理解因果关系,仅能「演」物理。

其他9个维度的挑战

在剩余的 9 个维度中,Veo-3 也显示了一定的局限性,表现规律如下:

真实世界空间推理(Real-world Spatial Reasoning):在复杂视角和动态场景下,模型难以保持空间一致性,物体易出现错位或漂移。

3D几何推理(3D Geometry Reasoning):多步骤或复杂 3D 变换容易失败,生成结构错位或自交,模型无法理解连续几何关系。

2D几何推理(2D Geometry Reasoning):对基础 2D 变换有初步能力,但约束条件不稳定,复杂图形或多步骤几何理解不足。

旋转推理(Rotation Reasoning):小范围旋转可近似生成,但大角度或复合旋转下几何一致性丢失,物体出现扭曲或不连贯。

图表推理(Table and Chart Reasoning):能进行局部聚焦或视觉匹配,但缺乏精确关系理解,生成结果难以作为可靠推理依据。

物体计数(Object Counting Reasoning):基础计数可行,但在动态或复杂场景中,空间控制不足,易出现重复或漏计。

GUI推理(GUI Reasoning):能模仿点击动作,执行局部界面操作,但缺乏对操作逻辑或任务目标的理解。

具身推理(Embodied Reasoning):对物体位置和操作有基本识别能力,但缺乏规划与稳定性,易生成「作弊」行为,如凭空生成物体或不遵守环境规则。

医学推理(Medical Reasoning):在医学图像缩放或局部观察上可展示基础能力,但对专业术语与影像逻辑理解不足,易产生图像扭曲或不真实现象。

MME-CoF:首个CoF推理基准标题

基于以上实例研究,研究团队整理出了MME-CoF基准,以便系统评估CoF推理潜力:

1. 首个专门量化视频模型推理潜力的基准;

2. 涵盖12个大类,共59个精心设计条目;

3. 巧妙的提示设计,将抽象推理问题(物理、几何、计数)转化为具体「视频生成任务」,迫使模型通过CoF展示推理过程。


最终结论

视频模型是在「演」推理

通过对Veo-3、Sora-2、Seedance、Kling等模型的分析,研究者得出:

  1. 尚不具备独立推理能力:目前的视频模型还不能作为可靠零样本推理器。

  2. 「模式驱动」而非「原理驱动」:生成能力强 ≠ 推理能力强。

  3. 重「貌似合理」,轻「逻辑正确」:模型更注重视觉合理性,而非逻辑严谨性。

  4. 未来潜力巨大:有望成为强大的「互补视觉引擎」,与推理模型协同工作。

这项研究为社区提供了对视频模型推理潜力的深刻洞察和清晰的评估基准,揭示了当前视频模型在迈向真正「通用视觉模型」道路上的重要障碍。

参考资料:

https://arxiv.org/pdf/2510.26802v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
AVN 2026获奖名单, 粉丝才是真评委

AVN 2026获奖名单, 粉丝才是真评委

吃瓜党二号头目
2026-03-02 11:17:42
皇马耻辱一战!恶汉膝盖顶对手头部逃红牌 8万人高喊:老佛爷下课

皇马耻辱一战!恶汉膝盖顶对手头部逃红牌 8万人高喊:老佛爷下课

念洲
2026-03-03 07:18:29
让领导先走:当战争可以“精准”到一个人

让领导先走:当战争可以“精准”到一个人

潮汐志
2026-03-01 19:47:21
苦走10年投资路,李斌热泪盈眶:今天,我们终于赢了!

苦走10年投资路,李斌热泪盈眶:今天,我们终于赢了!

少数派报告Report
2026-01-12 17:41:03
美国将海军陆战队派往伊朗行动

美国将海军陆战队派往伊朗行动

财联社
2026-02-28 18:25:05
浴缸陪睡只是冰山一角,多位助理服务明星方式曝光,一个个太离谱

浴缸陪睡只是冰山一角,多位助理服务明星方式曝光,一个个太离谱

离离言几许
2026-03-02 15:53:17
香港知名男星发福严重、肥到无颈,因称赞周慧敏,被骂到离港发展

香港知名男星发福严重、肥到无颈,因称赞周慧敏,被骂到离港发展

地理三体说
2026-03-02 23:25:42
真正的智慧,在于学会“转身”

真正的智慧,在于学会“转身”

洞读君
2026-02-18 21:25:03
第一性原理为何如此重要?读懂此文,2026事业起飞

第一性原理为何如此重要?读懂此文,2026事业起飞

高博新视野
2026-02-27 17:17:48
这老师真是绝代美人啊!

这老师真是绝代美人啊!

东方不败然多多
2026-03-01 01:09:31
西甲第26轮综述:皇马两连败落后巴萨4分,安东尼德比战倒勾破门

西甲第26轮综述:皇马两连败落后巴萨4分,安东尼德比战倒勾破门

足球报
2026-03-03 08:53:45
好惨!香港知名演员新片激情戏被删光,丰满身材难现大银幕

好惨!香港知名演员新片激情戏被删光,丰满身材难现大银幕

眼底星碎
2026-03-01 11:31:34
小姑子在嫂子订婚宴上抢走三金,果断退婚:不敢嫁“强盗”

小姑子在嫂子订婚宴上抢走三金,果断退婚:不敢嫁“强盗”

惟来
2026-03-02 07:42:53
谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,太敢说

谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,太敢说

青梅侃史啊
2026-02-13 07:29:37
与孔令辉分手12年,马苏坦白:那晚被黑人驮肩照,终为人生买个单

与孔令辉分手12年,马苏坦白:那晚被黑人驮肩照,终为人生买个单

喜欢历史的阿繁
2026-03-03 07:26:03
被我国惯坏了!美国游客回国吐槽:连出门都变得不适应,落差太大

被我国惯坏了!美国游客回国吐槽:连出门都变得不适应,落差太大

万物知识圈
2026-03-02 12:40:28
30多岁女子神色慌张冲进诊室,“我下面有截断针取不出来了”

30多岁女子神色慌张冲进诊室,“我下面有截断针取不出来了”

鬼菜生活
2026-03-02 17:16:23
中国男篮世预赛总结:赵继伟、胡金秋满分,三人或无缘国家队资格

中国男篮世预赛总结:赵继伟、胡金秋满分,三人或无缘国家队资格

两兄弟养牛
2026-03-02 16:44:36
李小璐公开否认传闻!

李小璐公开否认传闻!

嘻笑堂
2026-03-03 01:03:46
研究警告:越来越多家庭因吃它中毒!冰箱里这类肉别超3个月!

研究警告:越来越多家庭因吃它中毒!冰箱里这类肉别超3个月!

全球军事记
2026-02-28 10:12:38
2026-03-03 09:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14626文章数 66648关注度
往期回顾 全部

科技要闻

苹果iPhone17e发布:4499元起 升级A19芯片

头条要闻

牛弹琴:多国对轰炸保持沉默 西班牙首相确实是条汉子

头条要闻

牛弹琴:多国对轰炸保持沉默 西班牙首相确实是条汉子

体育要闻

伯纳乌8万人暴怒!高呼78岁老佛爷下课

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

霍尔木兹海峡近乎停摆 布油直逼80美元

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

游戏
手机
健康
本地
公开课

Xbox发彩蛋暗示《赛博朋克2077》将加入XGP! 

手机要闻

苹果2026年首款iPhone登场 iPhone 17e吃上国补:到手3999元起

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版