网易首页 > 网易号 > 正文 申请入驻

视频模型假装在推理?MME-CoF新基准评估12个推理维度

0
分享至


新智元报道

编辑:LRST

【新智元导读】视频生成模型如Veo-3能生成逼真视频,但有研究发现其推理能力存疑。香港中文大学、北京大学、东北大学的研究者们设计了12项测试,发现模型只能模仿表面模式,未真正理解因果。这项研究为视频模型推理能力评估提供基准,指明未来研究方向。

近年来,以Veo、Sora为代表的视频生成模型,已经能够合成高度逼真且连贯的视频,这表明它们可能成功编码了大量世界知识。

谷歌的最新研究甚至指出,Veo-3这类模型正超越单纯的内容生成,展示出无需特定训练即可进行感知、建模和推理等「涌现能力」。

这引出了一个类似大语言模型(LLM)中「思维链」(Chain-of-Thought, CoT)的新概念——Chain-of-Frame(CoF)

其核心思想是:模型通过逐帧生成视频来逐步推演和解决问题。

然而,一个关键问题仍然存在:视频模型是真的具备零样本(Zero-Shot)推理能力,还是仅仅在「模仿」训练数据的表面模式?

为回答这一问题,来自香港中文大学、北京大学、东北大学的研究者们开展了一项系统的实证研究,全面评估以Veo-3为代表的视频模型在零样本场景下的推理潜力,并整理了涵盖空间、几何、物理、时间等12个推理维度的新基准测试MME-CoF


论文地址:https://arxiv.org/pdf/2510.26802v1

项目地址:https://video-cof.github.io/


什么是Chain-of-Frame(CoF) 推理?

Chain-of-Frame(CoF)推理可类比于LLM的「思维链」(CoT)。

LLM中的CoT是通过生成一步步文本来进行推理。

视频模型中的CoF则是通过逐帧生成视频序列,迭代更新和演进场景。

例如,要模型回答一个复杂空间问题,不再直接输出答案,而是要求它生成一个「解决问题的过程视频」。研究者希望探索,这种CoF过程能否让模型真正涌现出通用的视觉推理能力。

深度剖析:Veo-3的12维考验



为全面评估 Veo-3 的零样本推理潜力,研究团队从多角度设计了 12 个推理维度。下面列举其中三个典型维度,以展示模型在实际任务中的表现,其他维度的详细设计与结果可参见原论文。

1. 视觉细节推理(Visual Detail Reasoning)


任务:评估模型辨别和维持细粒度视觉属性(如颜色、纹理)及空间关系(如左右方位)。

发现:在视觉显著、易定位的目标上表现良好。

局限:目标过小、被遮挡或处于杂乱背景时,定位失败,推理能力下降;生成可能带有风格化偏差,虽然表面合理但偏离指令。

视觉追踪推理(Visual Trace Reasoning)


任务:评估模型在序列动作(如走迷宫、多步操作)中的因果连续性。

发现:在简单、低分支场景中可生成局部连贯的短时序路径。

局限:长时序规划或规则驱动序列任务无法可靠执行,复杂因果链条失效。

物理推理(Physics-based Reasoning)


任务:评估模型描绘运动动力学、物理因果关系及基于规则的互动(如重力、碰撞、摩擦力)。

发现:能够生成短期、表面合理的动态效果。

局限:系统性违反定量物理约束(如能量守恒、机械规则);无法理解因果关系,仅能「演」物理。

其他9个维度的挑战

在剩余的 9 个维度中,Veo-3 也显示了一定的局限性,表现规律如下:

真实世界空间推理(Real-world Spatial Reasoning):在复杂视角和动态场景下,模型难以保持空间一致性,物体易出现错位或漂移。

3D几何推理(3D Geometry Reasoning):多步骤或复杂 3D 变换容易失败,生成结构错位或自交,模型无法理解连续几何关系。

2D几何推理(2D Geometry Reasoning):对基础 2D 变换有初步能力,但约束条件不稳定,复杂图形或多步骤几何理解不足。

旋转推理(Rotation Reasoning):小范围旋转可近似生成,但大角度或复合旋转下几何一致性丢失,物体出现扭曲或不连贯。

图表推理(Table and Chart Reasoning):能进行局部聚焦或视觉匹配,但缺乏精确关系理解,生成结果难以作为可靠推理依据。

物体计数(Object Counting Reasoning):基础计数可行,但在动态或复杂场景中,空间控制不足,易出现重复或漏计。

GUI推理(GUI Reasoning):能模仿点击动作,执行局部界面操作,但缺乏对操作逻辑或任务目标的理解。

具身推理(Embodied Reasoning):对物体位置和操作有基本识别能力,但缺乏规划与稳定性,易生成「作弊」行为,如凭空生成物体或不遵守环境规则。

医学推理(Medical Reasoning):在医学图像缩放或局部观察上可展示基础能力,但对专业术语与影像逻辑理解不足,易产生图像扭曲或不真实现象。

MME-CoF:首个CoF推理基准标题

基于以上实例研究,研究团队整理出了MME-CoF基准,以便系统评估CoF推理潜力:

1. 首个专门量化视频模型推理潜力的基准;

2. 涵盖12个大类,共59个精心设计条目;

3. 巧妙的提示设计,将抽象推理问题(物理、几何、计数)转化为具体「视频生成任务」,迫使模型通过CoF展示推理过程。


最终结论

视频模型是在「演」推理

通过对Veo-3、Sora-2、Seedance、Kling等模型的分析,研究者得出:

  1. 尚不具备独立推理能力:目前的视频模型还不能作为可靠零样本推理器。

  2. 「模式驱动」而非「原理驱动」:生成能力强 ≠ 推理能力强。

  3. 重「貌似合理」,轻「逻辑正确」:模型更注重视觉合理性,而非逻辑严谨性。

  4. 未来潜力巨大:有望成为强大的「互补视觉引擎」,与推理模型协同工作。

这项研究为社区提供了对视频模型推理潜力的深刻洞察和清晰的评估基准,揭示了当前视频模型在迈向真正「通用视觉模型」道路上的重要障碍。

参考资料:

https://arxiv.org/pdf/2510.26802v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月30日执行!不用再买墓地,国家将正式放开殡葬新抉择

3月30日执行!不用再买墓地,国家将正式放开殡葬新抉择

青梅侃史啊
2026-03-26 20:21:55
伊朗已正式回应美国提出的停火协议15点内容

伊朗已正式回应美国提出的停火协议15点内容

新京报
2026-03-26 22:00:22
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

谭老师地理大课堂
2026-03-24 07:37:08
何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

往史过眼云烟
2026-03-26 20:33:55
是时候说出真相!打越南时损失或超乎想象,从牺牲的名将后代便知

是时候说出真相!打越南时损失或超乎想象,从牺牲的名将后代便知

舆图看世界
2026-03-26 09:15:03
伊朗最高领袖死里逃生细节曝光: 最可怕的“内鬼”亮相了!

伊朗最高领袖死里逃生细节曝光: 最可怕的“内鬼”亮相了!

仕道
2026-03-23 10:34:55
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

爱意随风起呀
2026-03-26 16:51:41
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
黄金,注意!无敌扫荡又要开始了!

黄金,注意!无敌扫荡又要开始了!

杨子黄金
2026-03-26 09:06:53
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
跌跌跌!继续!2026年3月23日 - 飞天茅台和生肖酒每日行情价格

跌跌跌!继续!2026年3月23日 - 飞天茅台和生肖酒每日行情价格

王二哥老搞笑
2026-03-23 20:00:01
2026-03-26 23:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
手机
数码
本地
房产

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版