当Veo、Sora、Luma、Kling(可灵)、Genie 3等模型不断刷新大众对视频生成的认知时,一个更根本的问题开始浮现:视频生成模型,正在被当作“世界模型”来使用了吗?
无论是自动驾驶仿真、具身智能、影视制作,还是交互式内容生成,越来越多应用正在默认一个前提 --- 模型生成的视频,不应只是“看起来合理”,而是“可以当作一个世界的演化”,而这也对视频生成模型提出了远高于“画面好不好看”的要求。
![]()
![]()
论文题目: VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 论文链接: https://ieeexplore.ieee.org/document/11250949 代码链接: https://github.com/Vchitect/VBench 项目主页: https://vchitect.github.io/VBench-project/一、从“拍一段视频”,到“建模一个世界”
早期的视频生成,关注点很简单: 画面清不清晰?动作顺不顺?美不美?但当视频生成被推向更复杂的任务,这些标准开始显得不够用。一个世界模型级别的视频生成系统,至少要回答三件事:
它能否从一个给定的世界状态继续生成?
它能否在更长时间尺度上保持一致的世界规律?
它在真实世界语境下,是否值得被信任?
换句话说:世界模型不只要会“生成”,还要 接得住、撑得久、靠得住。而这三点,恰恰是长期以来视频生成评测中被系统性忽略的部分。也正因此,VBench++ 的目标并不只是“跑分”或者“排名”,而是提供一套可解释、可复现、可诊断,并且能够覆盖 T2V / I2V / 长视频 / 可信性的系统性评测体系。
二、被忽视的第一道门槛:I2V,不只是“另一个任务”
在真实应用中,视频生成很少是“凭空开始”的。更多时候,模型面对的是: 一张已有的图像、一个当前世界状态、一个已经存在的场景。这正是 Image-to-Video(I2V) 的重要性:不是生成,而是“续写世界”。
然而,过去很长一段时间里,I2V 往往只是 T2V 的“附属测试”:
不同模型被强行拉到同一分辨率
不同宽高比被粗暴统一
输入图像质量本身成为隐性瓶颈
结果是:评测结果往往混合了模型能力、设置偏置和输入退化。
如果说 T2V 测的是视频生成模型“想象力”,那 I2V 测的,其实是世界模型中更关键的一点 --- 状态是否能被正确继承与演化。
三、让 I2V 更公平:Image Suite + 自适应宽高比:
I2V 的评测难点之一是“设置不统一”: 有的模型默认 1024×576,有的模型默认 256×256;有的偏 16:9,有的偏 1:1。把所有模型强行拉到同一分辨率,可能会引入额外的退化,导致评测不公。
为此,VBench++ 引入了面向 I2V 的 Image Suite。它不是随机抓的一堆图片,而是一个专门为 I2V 公平评测设计的图像测试集基准:
(1) 高分辨率:以 4K+ 图片为主,减少输入瓶颈对生成质量的限制
![]()
![]()
(2)自适应宽高比:通过pipeline适配/覆盖一系列宽高比,尽量让模型在各自的“最优默认设置”下被评测
![]()
![]()
![]()
(3) 内容多样且均衡:覆盖前景 / 背景多类内容,强调类别内多样性
![]()
(4) 图文成对:每张图片配套精修文本提示,支撑 I2V 条件一致性评估,I2V 不再是“顺带测一下”,而是被当作世界模型能力的关键一环来认真对待。
很多视频生成模型,在前几秒表现得相当惊艳。但只要拉长时间尺度,问题就会逐渐显现:人物身份缓慢漂移,物体属性悄然改变,场景结构在不知不觉中崩塌。这些问题,在短视频里不一定明显,但在长序列中会被无限放大。
世界模型的难点,从来不在“第一帧”,而在“第 N 帧”。如果模型无法在更长时间跨度内维持一致的世界状态,那么它更像是在“不断重画”,而不是在“模拟世界”。
第三道门槛:当视频生成进入现实应用,评测也必须更谨慎地考虑“可信性”
还有一个问题,过去很少被当作视频生成评测的核心维度:这个模型,是否值得被信任?当生成视频开始进入真实生产链路,以下问题无法回避:
不同文化语境下,模型是否存在系统性偏差?
人物生成中是否隐含性别或肤色偏置?
是否会在看似普通的提示下生成不安全(色情暴力等)内容?
这些问题,并不会体现在“画面质量”或“语义贴合度”里,却直接决定模型能否被安全部署。世界模型不仅要“像”,还要“稳”和“负责任”。
VBench++ 将 Trustworthiness(可信性) 正式纳入评测框架,系统性地覆盖:
跨文化一致性(Culture Fairness)
性别与肤色偏差(Gender / Skin Tone Bias)
安全性与风险内容(Safety)
这些维度同样配套了自动化评测方法,并通过大规模人类偏好标注进行对齐验证,让“可信性”评估不止停留在定性讨论。
评测的角色,正在发生变化
正是在这样的背景下,VBench++让视频生成评测开始从“跑分工具”转向“能力诊断”。它的目标并不只是“给模型排名”,而是提供一套 可解释、可复现、可诊断,并且能够覆盖 T2V / I2V / 长时一致性 / 可信性 的评测体系。
VBench++的核心思想并不复杂:
不要试图用一个分数概括一切,而是把“视频生成能力”拆解成可诊断的维度。
四、附录:VBench 系列榜单怎么用?
如果你想快速对比不同视频生成模型的能力,VBench 系列目前提供了多个互补的榜单入口。它们的区别不在于“谁更权威”,而在于你关注的任务形态与能力维度不同。
总榜入口(Leaderboard): https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
下面是三个最常用的榜单:
(1) VBench-T2V 榜单:Text-to-Video 的“基础体检”
如果你评测的是文生视频(T2V),想知道模型在“生成质量 + 条件一致性”上的综合表现,从这里开始最合适。
覆盖 16 个核心能力维度(更像一份结构化体检报告,而不是单一总分)
收录 100+ 个 Text-to-Video 模型,更新频率高、对比范围广
适合:做模型选型、快速定位“强项/短板”、写实验对比表格
如果你关心的是 图生视频(I2V)—— 即“从给定世界状态继续生成”,那这个榜单更对口。重点评估:
在给定输入图像条件下,模型能否稳定继承主体身份、场景信息
当前覆盖约 30 个 I2V 模型(更聚焦、也更贴近应用落地场景)
适合:I2V 模型选型、产品落地前的稳定性与一致性排查
如果你更关注“世界模型味儿”——模型是否真的具备更强的物理规律、常识推理与结构化理解,那 VBench-2.0 是更合适的入口。 它评测的是模型的内在真实性(Intrinsic Faithfulness),包括但不限于:
物理规律(Physics Plausibility)
常识与因果一致性(Common Sense / Causality)
人体解剖合理性(Human Anatomy)
场景组合与结构约束(Composition / Structural Consistency)
这类能力往往不会在“短视频惊艳感”里直接体现,却会在更复杂、更长时程、更真实的任务里决定模型是否可靠。
![]()
五、写在最后
当视频生成逐渐被视为世界模型的一种实现形式,评测本身,也需要随之升级。I2V、长时一致性、可信性,并不是附加条件,而是世界模型无法绕开的基本门槛。VBench++ 希望为这个领域提供一把更锋利、也更负责任的尺子:不只告诉你“强不强”,更告诉你“强在哪里、差在哪里”。
合理的评测目标,本身就是指引下一阶段研究与应用的重要指南针。 视频生成的发展日新月异:从最初只能生成 1–2 秒的“一眼 AI 视频”,到如今在短视频场景中已足以以假乱真;从展示模型能力,到逐步走入真实生产与交互系统。当世界模型开始进入下游应用,整个领域都需要认真思考:下一步真正值得突破的瓶颈是什么?哪些能力必须被优先检验?又有哪些风险不能被忽视?
评测不应只是跟随模型进步的“事后记录”,而应成为定义问题、约束方向、引导研究的重要工具。
相关资料: 从视频生成到世界模型的路线图: https://world-model-roadmap.github.ioVBench 系列评测体系: https://github.com/Vchitect/VBench 视觉生成评测的论文资料库: https://github.com/ziqihuangg/Awesome-Evaluation-of-Visual-Generation 世界模型论文资料库: https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model
VBench++ 并不试图给出终极答案,但希望至少让我们在追问一个更重要的问题时,有一把更清晰的尺子:
这个模型,真的在“理解并演化一个世界”吗?
欢迎使用、也欢迎来“挑战”这个 benchmark!更欢迎社区提出宝贵建议,与我们一起不断打磨评测目标、完善问题定义,为视频生成与世界模型的评测持续添砖加瓦。
llustration From IconScout By IconScout Store
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.