网易首页 > 网易号 > 正文 申请入驻

视频模型假装在推理?MME-CoF新基准评估12个推理维度

0
分享至


新智元报道

编辑:LRST

【新智元导读】视频生成模型如Veo-3能生成逼真视频,但有研究发现其推理能力存疑。香港中文大学、北京大学、东北大学的研究者们设计了12项测试,发现模型只能模仿表面模式,未真正理解因果。这项研究为视频模型推理能力评估提供基准,指明未来研究方向。

近年来,以Veo、Sora为代表的视频生成模型,已经能够合成高度逼真且连贯的视频,这表明它们可能成功编码了大量世界知识。

谷歌的最新研究甚至指出,Veo-3这类模型正超越单纯的内容生成,展示出无需特定训练即可进行感知、建模和推理等「涌现能力」。

这引出了一个类似大语言模型(LLM)中「思维链」(Chain-of-Thought, CoT)的新概念——Chain-of-Frame(CoF)

其核心思想是:模型通过逐帧生成视频来逐步推演和解决问题。

然而,一个关键问题仍然存在:视频模型是真的具备零样本(Zero-Shot)推理能力,还是仅仅在「模仿」训练数据的表面模式?

为回答这一问题,来自香港中文大学、北京大学、东北大学的研究者们开展了一项系统的实证研究,全面评估以Veo-3为代表的视频模型在零样本场景下的推理潜力,并整理了涵盖空间、几何、物理、时间等12个推理维度的新基准测试MME-CoF


论文地址:https://arxiv.org/pdf/2510.26802v1

项目地址:https://video-cof.github.io/


什么是Chain-of-Frame(CoF) 推理?

Chain-of-Frame(CoF)推理可类比于LLM的「思维链」(CoT)。

LLM中的CoT是通过生成一步步文本来进行推理。

视频模型中的CoF则是通过逐帧生成视频序列,迭代更新和演进场景。

例如,要模型回答一个复杂空间问题,不再直接输出答案,而是要求它生成一个「解决问题的过程视频」。研究者希望探索,这种CoF过程能否让模型真正涌现出通用的视觉推理能力。

深度剖析:Veo-3的12维考验



为全面评估 Veo-3 的零样本推理潜力,研究团队从多角度设计了 12 个推理维度。下面列举其中三个典型维度,以展示模型在实际任务中的表现,其他维度的详细设计与结果可参见原论文。

1. 视觉细节推理(Visual Detail Reasoning)


任务:评估模型辨别和维持细粒度视觉属性(如颜色、纹理)及空间关系(如左右方位)。

发现:在视觉显著、易定位的目标上表现良好。

局限:目标过小、被遮挡或处于杂乱背景时,定位失败,推理能力下降;生成可能带有风格化偏差,虽然表面合理但偏离指令。

视觉追踪推理(Visual Trace Reasoning)


任务:评估模型在序列动作(如走迷宫、多步操作)中的因果连续性。

发现:在简单、低分支场景中可生成局部连贯的短时序路径。

局限:长时序规划或规则驱动序列任务无法可靠执行,复杂因果链条失效。

物理推理(Physics-based Reasoning)


任务:评估模型描绘运动动力学、物理因果关系及基于规则的互动(如重力、碰撞、摩擦力)。

发现:能够生成短期、表面合理的动态效果。

局限:系统性违反定量物理约束(如能量守恒、机械规则);无法理解因果关系,仅能「演」物理。

其他9个维度的挑战

在剩余的 9 个维度中,Veo-3 也显示了一定的局限性,表现规律如下:

真实世界空间推理(Real-world Spatial Reasoning):在复杂视角和动态场景下,模型难以保持空间一致性,物体易出现错位或漂移。

3D几何推理(3D Geometry Reasoning):多步骤或复杂 3D 变换容易失败,生成结构错位或自交,模型无法理解连续几何关系。

2D几何推理(2D Geometry Reasoning):对基础 2D 变换有初步能力,但约束条件不稳定,复杂图形或多步骤几何理解不足。

旋转推理(Rotation Reasoning):小范围旋转可近似生成,但大角度或复合旋转下几何一致性丢失,物体出现扭曲或不连贯。

图表推理(Table and Chart Reasoning):能进行局部聚焦或视觉匹配,但缺乏精确关系理解,生成结果难以作为可靠推理依据。

物体计数(Object Counting Reasoning):基础计数可行,但在动态或复杂场景中,空间控制不足,易出现重复或漏计。

GUI推理(GUI Reasoning):能模仿点击动作,执行局部界面操作,但缺乏对操作逻辑或任务目标的理解。

具身推理(Embodied Reasoning):对物体位置和操作有基本识别能力,但缺乏规划与稳定性,易生成「作弊」行为,如凭空生成物体或不遵守环境规则。

医学推理(Medical Reasoning):在医学图像缩放或局部观察上可展示基础能力,但对专业术语与影像逻辑理解不足,易产生图像扭曲或不真实现象。

MME-CoF:首个CoF推理基准标题

基于以上实例研究,研究团队整理出了MME-CoF基准,以便系统评估CoF推理潜力:

1. 首个专门量化视频模型推理潜力的基准;

2. 涵盖12个大类,共59个精心设计条目;

3. 巧妙的提示设计,将抽象推理问题(物理、几何、计数)转化为具体「视频生成任务」,迫使模型通过CoF展示推理过程。


最终结论

视频模型是在「演」推理

通过对Veo-3、Sora-2、Seedance、Kling等模型的分析,研究者得出:

  1. 尚不具备独立推理能力:目前的视频模型还不能作为可靠零样本推理器。

  2. 「模式驱动」而非「原理驱动」:生成能力强 ≠ 推理能力强。

  3. 重「貌似合理」,轻「逻辑正确」:模型更注重视觉合理性,而非逻辑严谨性。

  4. 未来潜力巨大:有望成为强大的「互补视觉引擎」,与推理模型协同工作。

这项研究为社区提供了对视频模型推理潜力的深刻洞察和清晰的评估基准,揭示了当前视频模型在迈向真正「通用视觉模型」道路上的重要障碍。

参考资料:

https://arxiv.org/pdf/2510.26802v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘大刚去世;网红郭美美被封;全红婵乐观参赛;杨紫生日庆祝 | 11月08日娱乐八卦日报

刘大刚去世;网红郭美美被封;全红婵乐观参赛;杨紫生日庆祝 | 11月08日娱乐八卦日报

娱乐圈那档子事儿
2025-11-08 01:05:34
曾琦,多张漂亮优雅照片曝光,主角双双停职,患者信任碎一地!

曾琦,多张漂亮优雅照片曝光,主角双双停职,患者信任碎一地!

眼光很亮
2025-11-07 14:09:36
上海人狂喜!百米“翡翠山”官宣,魔都真要造山了!

上海人狂喜!百米“翡翠山”官宣,魔都真要造山了!

GA环球建筑
2025-11-07 12:16:56
19死!司机沿途怒撞17车,疯狂碾压屠杀,满地尸体!现场视频曝光

19死!司机沿途怒撞17车,疯狂碾压屠杀,满地尸体!现场视频曝光

深度报
2025-11-07 22:44:47
中国福建舰正式服役,美国反应激烈,专家公开承认:美军优势不再

中国福建舰正式服役,美国反应激烈,专家公开承认:美军优势不再

史纪文谭
2025-11-08 00:51:50
网传《雪中悍刀行2》阵容公布,第二季你还期待吗?

网传《雪中悍刀行2》阵容公布,第二季你还期待吗?

阿废冷眼观察所
2025-11-08 00:55:54
张柏芝前老板曝猛料:为了钱像狗一样舔我!到手后马上翻脸不认人

张柏芝前老板曝猛料:为了钱像狗一样舔我!到手后马上翻脸不认人

八星人
2025-11-07 10:49:22
万万没想到王家卫报应来的太快了!刘嘉玲梁朝伟晒出三人亲密合影

万万没想到王家卫报应来的太快了!刘嘉玲梁朝伟晒出三人亲密合影

乐悠悠娱乐
2025-11-07 10:22:15
嫩妇自述:和老公分居后,我每天去健身房练臀,却被私教给盯上了

嫩妇自述:和老公分居后,我每天去健身房练臀,却被私教给盯上了

想养大熊猫
2024-05-08 10:04:15
以色列下令彻底摧毁加沙隧道:被困地道中的哈马斯永远出不来了

以色列下令彻底摧毁加沙隧道:被困地道中的哈马斯永远出不来了

桂系007
2025-11-07 16:23:21
祝福!浙江队官宣34岁外援队长离队,效力4年半率队2次获中超季军

祝福!浙江队官宣34岁外援队长离队,效力4年半率队2次获中超季军

我爱英超
2025-11-07 18:25:36
中亚5国总统到美国会谈,特朗普综合经贸战略基本闭环

中亚5国总统到美国会谈,特朗普综合经贸战略基本闭环

邵旭峰域
2025-11-07 18:30:40
突发!中国造防空导弹发威击落伊尔-76运输机,俄5名机组人员阵亡

突发!中国造防空导弹发威击落伊尔-76运输机,俄5名机组人员阵亡

头条爆料007
2025-11-07 08:52:28
16场0球0助!7000万巨星断崖下滑,英超豪门成冤大头,曼联看笑话

16场0球0助!7000万巨星断崖下滑,英超豪门成冤大头,曼联看笑话

阿泰希特
2025-11-07 10:32:33
分析:凯文·杜兰特的到来激活了火箭队被低估的武器

分析:凯文·杜兰特的到来激活了火箭队被低估的武器

好火子
2025-11-08 01:19:30
你见过最烂的婚姻是啥样?网友:至少百分之80以上,都凑活着过着

你见过最烂的婚姻是啥样?网友:至少百分之80以上,都凑活着过着

解读热点事件
2025-11-07 00:05:03
大破防!这一次,41岁的白百何把过气女明星的惨,体现得淋漓尽致

大破防!这一次,41岁的白百何把过气女明星的惨,体现得淋漓尽致

未曾青梅
2025-11-05 23:26:19
中年女人想你“搞”她,往往会给你这4个暗示,别装作不知道

中年女人想你“搞”她,往往会给你这4个暗示,别装作不知道

白马惊天剑
2025-11-06 20:53:50
3-1!德国赛连爆大冷!第3位世界冠军出局,雨果+张本智和被淘汰

3-1!德国赛连爆大冷!第3位世界冠军出局,雨果+张本智和被淘汰

知轩体育
2025-11-08 00:55:07
赵心童兵败如山倒!吴宜泽下半场连赢4局,8-4夺赛点,剑指决赛!

赵心童兵败如山倒!吴宜泽下半场连赢4局,8-4夺赛点,剑指决赛!

刘姚尧的文字城堡
2025-11-07 20:45:10
2025-11-08 01:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13811文章数 66238关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

家长称男婴被两个不满12周岁女孩害死:拿她们没办法

头条要闻

家长称男婴被两个不满12周岁女孩害死:拿她们没办法

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

游戏
家居
手机
公开课
军事航空

海的那边是什么?我会自己去看"/> 主站 商城 论坛 自运营 登录 注册 海的那边是什么?我会自己去看 廉颇 2025-11-07 返回专栏首页 作者:...

家居要闻

现代自由 功能美学居所

手机要闻

小米17 Ultra:潜望镜头已清晰!小米17系列:销量已突破200万!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中国第三艘航空母舰福建舰入列

无障碍浏览 进入关怀版