网易首页 > 网易号 > 正文 申请入驻

视频模型假装在推理?MME-CoF新基准评估12个推理维度

0
分享至


新智元报道

编辑:LRST

【新智元导读】视频生成模型如Veo-3能生成逼真视频,但有研究发现其推理能力存疑。香港中文大学、北京大学、东北大学的研究者们设计了12项测试,发现模型只能模仿表面模式,未真正理解因果。这项研究为视频模型推理能力评估提供基准,指明未来研究方向。

近年来,以Veo、Sora为代表的视频生成模型,已经能够合成高度逼真且连贯的视频,这表明它们可能成功编码了大量世界知识。

谷歌的最新研究甚至指出,Veo-3这类模型正超越单纯的内容生成,展示出无需特定训练即可进行感知、建模和推理等「涌现能力」。

这引出了一个类似大语言模型(LLM)中「思维链」(Chain-of-Thought, CoT)的新概念——Chain-of-Frame(CoF)

其核心思想是:模型通过逐帧生成视频来逐步推演和解决问题。

然而,一个关键问题仍然存在:视频模型是真的具备零样本(Zero-Shot)推理能力,还是仅仅在「模仿」训练数据的表面模式?

为回答这一问题,来自香港中文大学、北京大学、东北大学的研究者们开展了一项系统的实证研究,全面评估以Veo-3为代表的视频模型在零样本场景下的推理潜力,并整理了涵盖空间、几何、物理、时间等12个推理维度的新基准测试MME-CoF


论文地址:https://arxiv.org/pdf/2510.26802v1

项目地址:https://video-cof.github.io/


什么是Chain-of-Frame(CoF) 推理?

Chain-of-Frame(CoF)推理可类比于LLM的「思维链」(CoT)。

LLM中的CoT是通过生成一步步文本来进行推理。

视频模型中的CoF则是通过逐帧生成视频序列,迭代更新和演进场景。

例如,要模型回答一个复杂空间问题,不再直接输出答案,而是要求它生成一个「解决问题的过程视频」。研究者希望探索,这种CoF过程能否让模型真正涌现出通用的视觉推理能力。

深度剖析:Veo-3的12维考验



为全面评估 Veo-3 的零样本推理潜力,研究团队从多角度设计了 12 个推理维度。下面列举其中三个典型维度,以展示模型在实际任务中的表现,其他维度的详细设计与结果可参见原论文。

1. 视觉细节推理(Visual Detail Reasoning)


任务:评估模型辨别和维持细粒度视觉属性(如颜色、纹理)及空间关系(如左右方位)。

发现:在视觉显著、易定位的目标上表现良好。

局限:目标过小、被遮挡或处于杂乱背景时,定位失败,推理能力下降;生成可能带有风格化偏差,虽然表面合理但偏离指令。

视觉追踪推理(Visual Trace Reasoning)


任务:评估模型在序列动作(如走迷宫、多步操作)中的因果连续性。

发现:在简单、低分支场景中可生成局部连贯的短时序路径。

局限:长时序规划或规则驱动序列任务无法可靠执行,复杂因果链条失效。

物理推理(Physics-based Reasoning)


任务:评估模型描绘运动动力学、物理因果关系及基于规则的互动(如重力、碰撞、摩擦力)。

发现:能够生成短期、表面合理的动态效果。

局限:系统性违反定量物理约束(如能量守恒、机械规则);无法理解因果关系,仅能「演」物理。

其他9个维度的挑战

在剩余的 9 个维度中,Veo-3 也显示了一定的局限性,表现规律如下:

真实世界空间推理(Real-world Spatial Reasoning):在复杂视角和动态场景下,模型难以保持空间一致性,物体易出现错位或漂移。

3D几何推理(3D Geometry Reasoning):多步骤或复杂 3D 变换容易失败,生成结构错位或自交,模型无法理解连续几何关系。

2D几何推理(2D Geometry Reasoning):对基础 2D 变换有初步能力,但约束条件不稳定,复杂图形或多步骤几何理解不足。

旋转推理(Rotation Reasoning):小范围旋转可近似生成,但大角度或复合旋转下几何一致性丢失,物体出现扭曲或不连贯。

图表推理(Table and Chart Reasoning):能进行局部聚焦或视觉匹配,但缺乏精确关系理解,生成结果难以作为可靠推理依据。

物体计数(Object Counting Reasoning):基础计数可行,但在动态或复杂场景中,空间控制不足,易出现重复或漏计。

GUI推理(GUI Reasoning):能模仿点击动作,执行局部界面操作,但缺乏对操作逻辑或任务目标的理解。

具身推理(Embodied Reasoning):对物体位置和操作有基本识别能力,但缺乏规划与稳定性,易生成「作弊」行为,如凭空生成物体或不遵守环境规则。

医学推理(Medical Reasoning):在医学图像缩放或局部观察上可展示基础能力,但对专业术语与影像逻辑理解不足,易产生图像扭曲或不真实现象。

MME-CoF:首个CoF推理基准标题

基于以上实例研究,研究团队整理出了MME-CoF基准,以便系统评估CoF推理潜力:

1. 首个专门量化视频模型推理潜力的基准;

2. 涵盖12个大类,共59个精心设计条目;

3. 巧妙的提示设计,将抽象推理问题(物理、几何、计数)转化为具体「视频生成任务」,迫使模型通过CoF展示推理过程。


最终结论

视频模型是在「演」推理

通过对Veo-3、Sora-2、Seedance、Kling等模型的分析,研究者得出:

  1. 尚不具备独立推理能力:目前的视频模型还不能作为可靠零样本推理器。

  2. 「模式驱动」而非「原理驱动」:生成能力强 ≠ 推理能力强。

  3. 重「貌似合理」,轻「逻辑正确」:模型更注重视觉合理性,而非逻辑严谨性。

  4. 未来潜力巨大:有望成为强大的「互补视觉引擎」,与推理模型协同工作。

这项研究为社区提供了对视频模型推理潜力的深刻洞察和清晰的评估基准,揭示了当前视频模型在迈向真正「通用视觉模型」道路上的重要障碍。

参考资料:

https://arxiv.org/pdf/2510.26802v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开始收网?东部战区围台10小时,5大落弹区划下,美军已求避战

开始收网?东部战区围台10小时,5大落弹区划下,美军已求避战

时时有聊
2025-12-29 11:58:10
中国体坛最伟大10名运动员,林丹上榜,第一名堪称亚洲荣耀

中国体坛最伟大10名运动员,林丹上榜,第一名堪称亚洲荣耀

不写散文诗
2025-12-27 14:59:44
南京一别墅7489万余元法拍成交,仅物业费就欠30余万元

南京一别墅7489万余元法拍成交,仅物业费就欠30余万元

现代快报
2025-12-28 13:47:08
悲痛!32岁女教师开会时突发脑梗,不幸离世!

悲痛!32岁女教师开会时突发脑梗,不幸离世!

教师吧
2025-12-28 16:20:33
成都一4S店爆炸后续:警方通报来了,隔壁店说真话,争吵内容曝光

成都一4S店爆炸后续:警方通报来了,隔壁店说真话,争吵内容曝光

好贤观史记
2025-12-29 10:18:32
亚洲周刊删除所有有关报道,事件接下来或将进入平静期

亚洲周刊删除所有有关报道,事件接下来或将进入平静期

映射生活的身影
2025-12-29 14:25:59
周渝民公开朱孝天缺席真相,原来朱孝天没说谎,我们都误会他了

周渝民公开朱孝天缺席真相,原来朱孝天没说谎,我们都误会他了

仙味少女心
2025-12-28 11:00:37
中国古代单日阵亡最高的战役:香积寺互砍,4个时辰11万人阵亡!

中国古代单日阵亡最高的战役:香积寺互砍,4个时辰11万人阵亡!

小豫讲故事
2025-12-29 06:00:03
8连涨停!A股超强概念,全线爆发!

8连涨停!A股超强概念,全线爆发!

证券时报e公司
2025-12-29 12:16:46
刚刚南方周末2026新年献词出来了,觉得“恶心”的人可以闭嘴了

刚刚南方周末2026新年献词出来了,觉得“恶心”的人可以闭嘴了

人格志
2025-12-28 23:52:06
哈佛医学院太平间前主管盗卖教学遗体器官 被判8年监禁,妻子协助寄送一同被判刑

哈佛医学院太平间前主管盗卖教学遗体器官 被判8年监禁,妻子协助寄送一同被判刑

红星新闻
2025-12-29 12:54:14
京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

阿纂看事
2025-12-10 15:38:14
结果出炉!连胜武获胜,四蓝委落败,郑丽文抛重磅,侯友宜尴尬了

结果出炉!连胜武获胜,四蓝委落败,郑丽文抛重磅,侯友宜尴尬了

云景侃记
2025-12-29 11:32:36
北京的房价,已经变成一个天大的笑话,现在卖房子可笑到什么程度

北京的房价,已经变成一个天大的笑话,现在卖房子可笑到什么程度

靓仔情感
2025-12-29 09:35:09
岁辰:一首写给自己的无声音符

岁辰:一首写给自己的无声音符

疾跑的小蜗牛
2025-12-28 21:43:36
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
湖北26岁女孩开车坠河身亡:监控曝致命细节,2次活命机会全浪费

湖北26岁女孩开车坠河身亡:监控曝致命细节,2次活命机会全浪费

甜柠聊史
2025-12-29 11:50:34
陈赓同林帅三次爆发争执,陈赓怒斥:再顶嘴我就毙了你!林彪为何敢于坚持己见?

陈赓同林帅三次爆发争执,陈赓怒斥:再顶嘴我就毙了你!林彪为何敢于坚持己见?

文史明鉴
2025-12-28 20:26:09
携程事件升级!用户哭诉,注销太难了,要手持身份证照片和手机号

携程事件升级!用户哭诉,注销太难了,要手持身份证照片和手机号

火山詩话
2025-12-28 07:35:08
谭松韵扛剧能力被质疑?客串的赵丽颖成女主?男主竟直接“隐身”

谭松韵扛剧能力被质疑?客串的赵丽颖成女主?男主竟直接“隐身”

楚楚号
2025-12-29 06:52:37
2025-12-29 15:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14209文章数 66403关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

"最快女护士"发新视频 官宣将参加东极抚远新年马拉松

头条要闻

"最快女护士"发新视频 官宣将参加东极抚远新年马拉松

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

谭松韵扛剧能力被质疑 赵丽颖成女主?

财经要闻

贵金属“牛市”能否跨年

汽车要闻

一汽正式“入股”零跑,总金额超37亿元!

态度原创

本地
手机
艺术
公开课
军事航空

本地新闻

云游安徽|合肥的基因,藏于三处无言的旧址

手机要闻

某母系小迭代旗舰新机曝光:极窄四等边大直屏、骁龙8E5平台

艺术要闻

克里姆特风格的女性人物画,太美了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

东部战区发布联合演训区公告及示意图

无障碍浏览 进入关怀版