网易首页 > 网易号 > 正文 申请入驻

TPAMI | 视频生成能成为世界模型吗?三个被长期忽视的评测门槛

0
分享至

Veo、Sora、Luma、Kling(可灵)、Genie 3等模型不断刷新大众对视频生成的认知时,一个更根本的问题开始浮现:视频生成模型,正在被当作“世界模型”来使用了吗?

无论是自动驾驶仿真、具身智能、影视制作,还是交互式内容生成,越来越多应用正在默认一个前提 --- 模型生成的视频,不应只是“看起来合理”,而是“可以当作一个世界的演化”,而这也对视频生成模型提出了远高于“画面好不好看”的要求。



论文题目: VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 论文链接: https://ieeexplore.ieee.org/document/11250949 代码链接: https://github.com/Vchitect/VBench 项目主页: https://vchitect.github.io/VBench-project/
一、从“拍一段视频”,到“建模一个世界”

早期的视频生成,关注点很简单: 画面清不清晰?动作顺不顺?美不美?但当视频生成被推向更复杂的任务,这些标准开始显得不够用。一个世界模型级别的视频生成系统,至少要回答三件事:

  • 它能否从一个给定的世界状态继续生成?

  • 它能否在更长时间尺度上保持一致的世界规律?

  • 它在真实世界语境下,是否值得被信任?

换句话说:世界模型不只要会“生成”,还要 接得住、撑得久、靠得住。而这三点,恰恰是长期以来视频生成评测中被系统性忽略的部分。也正因此,VBench++ 的目标并不只是“跑分”或者“排名”,而是提供一套可解释、可复现、可诊断,并且能够覆盖 T2V / I2V / 长视频 / 可信性的系统性评测体系。

二、被忽视的第一道门槛:I2V,不只是“另一个任务”

在真实应用中,视频生成很少是“凭空开始”的。更多时候,模型面对的是: 一张已有的图像、一个当前世界状态、一个已经存在的场景。这正是 Image-to-Video(I2V) 的重要性:不是生成,而是“续写世界”。

然而,过去很长一段时间里,I2V 往往只是 T2V 的“附属测试”:

  • 不同模型被强行拉到同一分辨率

  • 不同宽高比被粗暴统一

  • 输入图像质量本身成为隐性瓶颈

结果是:评测结果往往混合了模型能力、设置偏置和输入退化

如果说 T2V 测的是视频生成模型“想象力”,那 I2V 测的,其实是世界模型中更关键的一点 --- 状态是否能被正确继承与演化。

三、让 I2V 更公平:Image Suite + 自适应宽高比:

I2V 的评测难点之一是“设置不统一”: 有的模型默认 1024×576,有的模型默认 256×256;有的偏 16:9,有的偏 1:1。把所有模型强行拉到同一分辨率,可能会引入额外的退化,导致评测不公。

为此,VBench++ 引入了面向 I2V 的 Image Suite。它不是随机抓的一堆图片,而是一个专门为 I2V 公平评测设计的图像测试集基准:

  • (1) 高分辨率:以 4K+ 图片为主,减少输入瓶颈对生成质量的限制



  • (2)自适应宽高比:通过pipeline适配/覆盖一系列宽高比,尽量让模型在各自的“最优默认设置”下被评测




  • (3) 内容多样且均衡:覆盖前景 / 背景多类内容,强调类别内多样性


  • (4) 图文成对:每张图片配套精修文本提示,支撑 I2V 条件一致性评估,I2V 不再是“顺带测一下”,而是被当作世界模型能力的关键一环来认真对待。

第二道门槛:长时间一致性,才是真正的“世界”

很多视频生成模型,在前几秒表现得相当惊艳。但只要拉长时间尺度,问题就会逐渐显现:人物身份缓慢漂移,物体属性悄然改变,场景结构在不知不觉中崩塌。这些问题,在短视频里不一定明显,但在长序列中会被无限放大。

世界模型的难点,从来不在“第一帧”,而在“第 N 帧”。如果模型无法在更长时间跨度内维持一致的世界状态,那么它更像是在“不断重画”,而不是在“模拟世界”。

第三道门槛:当视频生成进入现实应用,评测也必须更谨慎地考虑“可信性”

还有一个问题,过去很少被当作视频生成评测的核心维度:这个模型,是否值得被信任?当生成视频开始进入真实生产链路,以下问题无法回避:

  • 不同文化语境下,模型是否存在系统性偏差?

  • 人物生成中是否隐含性别或肤色偏置?

  • 是否会在看似普通的提示下生成不安全(色情暴力等)内容?

这些问题,并不会体现在“画面质量”或“语义贴合度”里,却直接决定模型能否被安全部署。世界模型不仅要“像”,还要“稳”和“负责任”。

VBench++ 将 Trustworthiness(可信性) 正式纳入评测框架,系统性地覆盖:

  • 跨文化一致性(Culture Fairness)

  • 性别与肤色偏差(Gender / Skin Tone Bias)

  • 安全性与风险内容(Safety)

这些维度同样配套了自动化评测方法,并通过大规模人类偏好标注进行对齐验证,让“可信性”评估不止停留在定性讨论。

评测的角色,正在发生变化

正是在这样的背景下,VBench++让视频生成评测开始从“跑分工具”转向“能力诊断”。它的目标并不只是“给模型排名”,而是提供一套 可解释、可复现、可诊断,并且能够覆盖 T2V / I2V / 长时一致性 / 可信性 的评测体系。

VBench++的核心思想并不复杂:

不要试图用一个分数概括一切,而是把“视频生成能力”拆解成可诊断的维度。

四、附录:VBench 系列榜单怎么用?

如果你想快速对比不同视频生成模型的能力,VBench 系列目前提供了多个互补的榜单入口。它们的区别不在于“谁更权威”,而在于你关注的任务形态与能力维度不同。

总榜入口(Leaderboard): https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

下面是三个最常用的榜单:

(1) VBench-T2V 榜单:Text-to-Video 的“基础体检”

如果你评测的是文生视频(T2V),想知道模型在“生成质量 + 条件一致性”上的综合表现,从这里开始最合适。

  • 覆盖 16 个核心能力维度(更像一份结构化体检报告,而不是单一总分)

  • 收录 100+ 个 Text-to-Video 模型,更新频率高、对比范围广

  • 适合:做模型选型、快速定位“强项/短板”、写实验对比表格

(2) VBench-I2V 榜单:Image-to-Video 的“状态承接能力”对比

如果你关心的是 图生视频(I2V)—— 即“从给定世界状态继续生成”,那这个榜单更对口。重点评估:

  • 在给定输入图像条件下,模型能否稳定继承主体身份、场景信息

  • 当前覆盖约 30 个 I2V 模型(更聚焦、也更贴近应用落地场景)

  • 适合:I2V 模型选型、产品落地前的稳定性与一致性排查

(3) VBench-2.0 榜单:评“内在真实性”的更高阶考题

如果你更关注“世界模型味儿”——模型是否真的具备更强的物理规律、常识推理与结构化理解,那 VBench-2.0 是更合适的入口。 它评测的是模型的内在真实性(Intrinsic Faithfulness),包括但不限于:

  • 物理规律(Physics Plausibility)

  • 常识与因果一致性(Common Sense / Causality)

  • 人体解剖合理性(Human Anatomy)

  • 场景组合与结构约束(Composition / Structural Consistency)

这类能力往往不会在“短视频惊艳感”里直接体现,却会在更复杂、更长时程、更真实的任务里决定模型是否可靠。


五、写在最后

当视频生成逐渐被视为世界模型的一种实现形式,评测本身,也需要随之升级。I2V、长时一致性、可信性,并不是附加条件,而是世界模型无法绕开的基本门槛。VBench++ 希望为这个领域提供一把更锋利、也更负责任的尺子:不只告诉你“强不强”,更告诉你“强在哪里、差在哪里”。

合理的评测目标,本身就是指引下一阶段研究与应用的重要指南针。 视频生成的发展日新月异:从最初只能生成 1–2 秒的“一眼 AI 视频”,到如今在短视频场景中已足以以假乱真;从展示模型能力,到逐步走入真实生产与交互系统。当世界模型开始进入下游应用,整个领域都需要认真思考:下一步真正值得突破的瓶颈是什么?哪些能力必须被优先检验?又有哪些风险不能被忽视?

评测不应只是跟随模型进步的“事后记录”,而应成为定义问题、约束方向、引导研究的重要工具。

相关资料: 从视频生成到世界模型的路线图: https://world-model-roadmap.github.ioVBench 系列评测体系: https://github.com/Vchitect/VBench 视觉生成评测的论文资料库: https://github.com/ziqihuangg/Awesome-Evaluation-of-Visual-Generation 世界模型论文资料库: https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model

VBench++ 并不试图给出终极答案,但希望至少让我们在追问一个更重要的问题时,有一把更清晰的尺子:

这个模型,真的在“理解并演化一个世界”吗?

欢迎使用、也欢迎来“挑战”这个 benchmark!更欢迎社区提出宝贵建议,与我们一起不断打磨评测目标、完善问题定义,为视频生成与世界模型的评测持续添砖加瓦。

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
好神奇!广东一废弃水库出现“冰川遗迹”?地质专家回应→

好神奇!广东一废弃水库出现“冰川遗迹”?地质专家回应→

广东吃喝玩乐
2026-01-08 12:06:51
冠军赛爆大冷!男单8强赛出炉,乒坛名将0-3惨败,林诗栋肩负重任

冠军赛爆大冷!男单8强赛出炉,乒坛名将0-3惨败,林诗栋肩负重任

帛金体育
2026-01-08 12:11:14
U23亚洲杯个人身价榜:王钰栋150万欧并列第二,朱维尔第一

U23亚洲杯个人身价榜:王钰栋150万欧并列第二,朱维尔第一

懂球帝
2026-01-08 14:04:19
纪委酒后吐真言:比被查更可怕的,是你已经“死”在晚上的饭局里

纪委酒后吐真言:比被查更可怕的,是你已经“死”在晚上的饭局里

一口娱乐
2025-12-12 08:56:25
410次开房账单!南航“捷径女”从临时工到副处长,撕开央企遮羞布

410次开房账单!南航“捷径女”从临时工到副处长,撕开央企遮羞布

墨印斋
2025-12-16 19:15:31
青岛少儿游泳队员受冻事件:教体局介入,涉事场馆未致歉

青岛少儿游泳队员受冻事件:教体局介入,涉事场馆未致歉

半岛官网
2026-01-08 17:34:28
不上镜的人有多不上镜?网友:终于知道为啥有人不知道自己长啥样

不上镜的人有多不上镜?网友:终于知道为啥有人不知道自己长啥样

另子维爱读史
2026-01-07 21:58:05
流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

朔方瞭望
2026-01-06 11:11:51
模拟器是上个世纪最伟大的产物,如今却成为奸商割韭菜的工具

模拟器是上个世纪最伟大的产物,如今却成为奸商割韭菜的工具

街机时代
2026-01-06 18:00:03
上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

霹雳炮
2025-10-17 21:31:29
继杨振宁去世不到2月,翁帆首次携76岁妈妈亮相,一个细节惹争议

继杨振宁去世不到2月,翁帆首次携76岁妈妈亮相,一个细节惹争议

涵豆说娱
2025-12-04 15:03:22
何晴病中照片公开,浮肿虚弱判若两人,追悼会现场粉丝自发送别

何晴病中照片公开,浮肿虚弱判若两人,追悼会现场粉丝自发送别

农城浪子
2025-12-17 16:05:48
夫妻性生活“爽”到尖叫的技巧:深度探索与情感交融的艺术

夫妻性生活“爽”到尖叫的技巧:深度探索与情感交融的艺术

精彩分享快乐
2025-12-01 16:01:12
医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

深度报
2025-12-21 23:01:02
小鹏今日将发布四款新车 SUV续航最高超1700公里

小鹏今日将发布四款新车 SUV续航最高超1700公里

手机中国
2026-01-08 09:26:07
中日如果发生战争最怕的不是中国武器不够先进,怕的是间谍和内奸

中日如果发生战争最怕的不是中国武器不够先进,怕的是间谍和内奸

南权先生
2025-12-04 16:20:06
特朗普指示美国退出66个国际组织!他最新发文抱怨:挪威不把诺贝尔和平奖颁给我;他还与哥伦比亚总统首次通话,讨论了毒品问题

特朗普指示美国退出66个国际组织!他最新发文抱怨:挪威不把诺贝尔和平奖颁给我;他还与哥伦比亚总统首次通话,讨论了毒品问题

每日经济新闻
2026-01-08 09:02:06
脑梗的源头被查出,肥肉没上榜,第1名很多人可能每天都在吃!

脑梗的源头被查出,肥肉没上榜,第1名很多人可能每天都在吃!

全球军事记
2025-11-29 13:46:37
家中这3生肖,2026年是全家贵人!财旺人旺,阖家和顺​

家中这3生肖,2026年是全家贵人!财旺人旺,阖家和顺​

人閒情事
2026-01-03 14:21:53
特朗普与哥伦比亚总统佩特罗首次通电话!委代理总统强调:营救马杜罗夫妇等!美宣称将“无限期”控制委石油销售

特朗普与哥伦比亚总统佩特罗首次通电话!委代理总统强调:营救马杜罗夫妇等!美宣称将“无限期”控制委石油销售

每日经济新闻
2026-01-08 10:06:40
2026-01-09 02:47:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2300文章数 596关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

房产
亲子
教育
旅游
公开课

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

亲子要闻

家长注意了!这7件事别再孩子面前做!

教育要闻

一觉醒来,全球传播学倒退100年(无限流)

旅游要闻

京城里的小众博物馆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版