网易首页 > 网易号 > 正文 申请入驻

「百万级」视频推理数据集!30+顶尖高校联合发布

0
分享至


新智元报道

编辑:LRST

【新智元导读】AI视频生成已能「画得像」,但不会「想得对」。VBVR推出百万级视频推理数据集,首次系统评测模型对空间、物理、逻辑和抽象的推理能力,发现顶尖模型通过率仅68%,暴露其缺乏真实认知,推动视频AI从「视觉模仿」迈向「智能推理」。

近年来,视频生成模型在视觉质量、时序一致性和文本对齐等方面取得了显著进展,从最初的模糊光影到如今足以乱真的好莱坞级画面,「视觉质量」的竞争已趋于白热化。然而,一个被长期忽视的深层命题逐渐浮出水面:视频模型真的「理解」它所创造的世界吗?

现有研究和评测体系,更多聚焦于「好不好看」「像不像」,而视频中真正与智能相关的能力——对空间、物理、逻辑、因果与抽象规则的推理——却长期缺乏系统性刻画。一个核心瓶颈在于,视频推理领域至今缺少一个规模足够大、任务覆盖足够全面、且评测可验证、可复现的数据集与基准。

  • 现有工作往往停留在零散demo或小规模benchmark 上,难以研究规模效应与泛化行为

  • 任务定义高度碎片化,空间、物理、逻辑、抽象等能力混杂在一起,缺乏统一的「推理能力定义」

  • 训练数据与评测任务严重脱节,模型更像是在「生成得更稳」,而非「想得更对」。

近日来自NTU、CMU、斯坦福、UCB等32所高校的研究员联合提出VBVR(Very Big Video Reasoning),并不是一个单点 benchmark,而是一套一次性补齐所有短板的面向视频推理研究的完整基础设施


论文链接:https://arxiv.org/pdf/2602.20159v2

视频链接:https://www.youtube.com/watch?v=isnyV_BDgBE

  • 前所未有的超大规模:研究人员构建了包含200 个精心策划的推理任务超过 100 万个视频剪辑的 VBVR-Dataset。其规模比现有同类数据集大出约1000 倍,为系统研究视频推理的算法革新提供了坚实的土壤。

  • 六大核心认知支柱:基于人类认知架构理论设计任务,研究人员将推理能力细分为:感知、空间性、物理规律、逻辑与符号、抽象、以及变换

  • 完全规则化、可复现的评测标准VBVR-Bench:研究人员摒弃了模糊的「LLM-as-a-judge」,引入了可验证的规则评分器。这种评估方式与人类判断高度一致,确保了结果的科学性和稳定性。

  • 超强baseline:通过在Wan2.2 I2V 14B上的规模实验去回答「数据扩大会不会带来泛化」的核心问题


图片1VBVR 概览。 左侧:网格展示了覆盖认知架构的代表性任务,并根据其对应能力进行颜色编码:空间性(Spatiality)、变换(Transformation)、知识(Knowledge)、抽象(Abstraction)和感知(Perception)。在网格中心,展示了 VBVR(2.015M 样本) 与其他 九个数据集总和(12.8K 样本) 的规模对比:圆的大小按比例绘制。右上:在域内(in-domain)和域外(out-of-domain)评估中的扩展行为(scaling behavior)。右下:基于五种认知能力的基准性能表现。


图片2VBVR-Dataset 的示例任务实例,按五种认知能力进行组织。每个序列展示了为得到有效解所需的结构化推理过程。这些任务通过生成器实现,支持可扩展的实例变化。

在规模层面,VBVR-Dataset 的数字很醒目:200 个任务、2,015,000 张图像、1,007,500 个视频片段,约为既有同类资源的三个数量级。本文还特别设置了公开任务与隐藏任务,用于后续排行榜评估,避免基准被过度「刷榜化」。

研究团队根据人类认知理论,将视频推理能力划分为六大核心支柱(Pillars),涵盖 200 个精心设计的任务。同时这个数字随着社区的不断贡献还在增长,每一类都对应可参数化的任务生成器,能够持续采样新实例:

  • 感知 (Perception):测试边缘检测、颜色和形状感知及辨别能力。

  • 空间性 (Spatiality):考察位置表征、几何关系及导航能力(如迷宫寻路)。

  • 变换 (Transformation):涉及心理旋转、物体状态演变等精神表征的操纵。

  • 知识 (Knowledge):关于世界的命题性内容,可能来源于经验学习,也可能是先天赋予的。

  • 抽象 (Abstraction):考察从特定经验中提取通用知识的能力。


VBVR-Bench

基于规则的系统可验证评分

VBVR-Bench 的核心主张是:视频推理评测应从「模型当裁判」(LLM-as-a-Judge)的主观评估范式,转向基于规则的可验证评分机制。在该基准中,每一个测试任务都配套明确的任务规则与加权评价指标,评估维度涵盖目标识别、路径合法性、执行效率、时序一致性以及逻辑有效性等关键因素。

这种设计带来的首要优势是,

完全可复现对于同一模型输出,在相同规则体系下应始终得到稳定一致的评分结果,不会因评审模型的温度设置、提示词差异或上下文变化而产生波动。

深度诊断能力它不仅能给模型打分,还能通过分析五大认知支柱(感知、空间,知识、变换、抽象)下的细分表现,揭示出模型在不同认知能力之间的相互依赖与权衡。研究者能够准确定位模型失败的具体原因,例如是目标识别错误、路径规划违反约束(如穿越障碍),还是由于生成视频抖动而导致的任务完成失败。

为了验证这种自动化规则评分是否靠谱,研究团队进行了人类偏好对齐实验。结果显示,VBVR-Bench 的自动化评分与人类判断的 Spearman 相关系数超过了0.9,证明了规则评分的权威性。


图片3人类偏好对齐分析:VBVR-Bench 自动胜率与人工偏好胜率呈高度相关。

VBVR-Wan2.2实验洞察

谁是当前的推理王者?

推理能力的 Scaling Law (规模化规律)

实验揭示了明显的规模效应,在基础模型Wan2.2-I2V-A14B上利用VBVR-Dataset 上微调后,得到的VBVR-Wan2.2模型在基准上实现了取得了显著性能提升。

从0.371跃升至0.685整体相对提升达到84.6%,并在多个能力维度上超过当时的主流专有模型。

泛化能力的「早期信号」

虽然域内与域外任务之间存在性能差距,但研究观察到随着数据规模扩大,模型开始表现出向未见过任务迁移推理能力的趋势。这意味着模型不仅仅是在记忆模式,而是在逐步内化某些通用的物理或逻辑规则。

这种性能提升并非可以无限持续。随着训练,域外任务与域内任务之间仍然存在约15%的泛化差距。

也就是说,仅依赖于「增加同类型数据规模」虽然能够带来显著性能增益,但仍不足以完全弥合系统性的泛化鸿沟。论文因此反复强调一个重要结论:规模化能够显著提升性能,但其效果仍然受到结构性上限的限制。

研究人员希望VBVR-Dataset也能够为下阶段研究提供一个实验土壤,社区可以以此为基础,进行架构层面的改造,例如显式状态跟踪、结构化推理模块、和自校正机制。

场景可控性是可验证推理的先决条件(Controllability before reasoning):通过定性分析发现,领先模型的高分本质上源于其极强的「约束执行」能力。

相比于基础模型在生成时会随意重写背景或物体标识,导致中间状态不可验证VBVR-Wan2.2展现出了一种「外科手术式」的精确度:它能严格遵循指令执行删除、旋转或多步操作,而不对画面其他元素产生任何意外扰动。

这种「非必要不修改」的确定性证明,模型已开始摆脱随意的「视觉脑补」,转而学习在物理规则的框架内进行受控演进。


图片4域外任务的定性概览:部分A展示了VBVR-Wan2.2与Sora 2在三个任务上的同任务、同样本对比;部分B展示了VBVR-Wan2.2在完全没见过的任务上的涌现现象; 部分C展示了VBVR-Wan2.2在任务上的实际边界。即使在改进后,模型仍可能在长生成任务中仍会出现一些问题,例如结果看似正确,但中间步骤并不遵循真实决策逻辑。这类「答案对了、过程错了」的现象,正是下一阶段视频推理评测必须继续强化的部分。

开源共建, 赋能社区,定义数据生产新范式

VBVR团队坚信,开放与共享是推动视频推理社区发展的基石。

VBVR-Dataset的百万级视频数据已向社区全量公开。

不仅如此,各个任务的参数化生成器代码以及高效的DataFactory云端架构也将同步开源。

基于云端无服务器的架构系统( AWS Lambda)支持多达990个节点并行作业,仅需2-4小时即可完成百万级数据的生产,且单次运行成本控制在800-1200美元之间,实现了极高的数据生产效能。

参考资料:

https://arxiv.org/pdf/2602.20159v2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有北京员工晒1688万年薪 个税交超687万引热议!黄仁勋:我愿给英伟达员工更高薪酬

有北京员工晒1688万年薪 个税交超687万引热议!黄仁勋:我愿给英伟达员工更高薪酬

快科技
2026-06-02 23:42:05
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
“翻墙”就是犯法,这些常识你必须知道

“翻墙”就是犯法,这些常识你必须知道

智慧仪陇
2026-05-29 17:30:00
上海悄然推出重大举措,悄然撕开了中国楼市前所未有的新缺口。

上海悄然推出重大举措,悄然撕开了中国楼市前所未有的新缺口。

流苏晚晴
2026-06-02 18:01:33
王少杰带娇妻泰国度蜜月,重回北控,逆袭成功,妻子是美丽网红

王少杰带娇妻泰国度蜜月,重回北控,逆袭成功,妻子是美丽网红

大西体育
2026-06-03 11:03:03
133亿爆雷,10万人血本无归,水贝黄金“预定价”崩盘之殇

133亿爆雷,10万人血本无归,水贝黄金“预定价”崩盘之殇

混沌录
2026-06-02 23:09:49
8枚“锆石”轰炸基辅,超百人死伤,普京敲定追责指令,下令惩罚所有肇事者

8枚“锆石”轰炸基辅,超百人死伤,普京敲定追责指令,下令惩罚所有肇事者

荷兰豆爱健康
2026-06-03 08:05:33
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

上观新闻
2026-06-02 12:23:28
马刺尼克斯上一次打总决赛时,世界是这个样子

马刺尼克斯上一次打总决赛时,世界是这个样子

年代回忆
2026-05-31 12:36:23
闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

娱乐的宅急便
2026-06-02 14:59:09
体感47℃却挤不进火炉?广州:我真的热得很冤!

体感47℃却挤不进火炉?广州:我真的热得很冤!

花小猫的美食日常
2026-06-03 00:16:05
耿同学又举报4名学者,涉事人物全部曝光!处理他们刻不容缓

耿同学又举报4名学者,涉事人物全部曝光!处理他们刻不容缓

平老师666
2026-06-02 22:27:01
癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

鬼菜生活
2026-06-02 17:31:32
文班亚马将签5000多万合同,马刺下赛季还能签超巨,保罗会后悔吗

文班亚马将签5000多万合同,马刺下赛季还能签超巨,保罗会后悔吗

体育大学僧
2026-06-02 11:10:25
十年天价合约落地!库里亲笔信揭秘:为什么选择中国品牌李宁?

十年天价合约落地!库里亲笔信揭秘:为什么选择中国品牌李宁?

篮球神吐槽
2026-06-02 10:11:11
世界杯热身赛综述:比利时2-0克罗地亚!摩洛哥4-0,加纳遭绝平

世界杯热身赛综述:比利时2-0克罗地亚!摩洛哥4-0,加纳遭绝平

我爱英超
2026-06-03 06:43:31
日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

东京新青年
2026-05-31 18:08:07
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

探索新高度
2026-06-02 21:29:30
2026-06-03 11:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15374文章数 66897关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

2030年之前 莲花还来得及

态度原创

房产
艺术
家居
时尚
手机

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

艺术要闻

二十年前割麦的场景

家居要闻

江畔轻奢 观云大宅

一身夏装三种模样,跟着Mai拿捏夏日甜辣

手机要闻

星星海梦幻外观+4K原生实况!vivo S60手机全面评测:一台懂年轻人日常需求的轻旗舰

无障碍浏览 进入关怀版