TPAMI | 视频生成能成为世界模型吗？三个被长期忽视的评测门槛|维度|可信性|image

分享至

当Veo、Sora、Luma、Kling（可灵）、Genie 3等模型不断刷新大众对视频生成的认知时，一个更根本的问题开始浮现：视频生成模型，正在被当作“世界模型”来使用了吗？

无论是自动驾驶仿真、具身智能、影视制作，还是交互式内容生成，越来越多应用正在默认一个前提 --- 模型生成的视频，不应只是“看起来合理”，而是“可以当作一个世界的演化”，而这也对视频生成模型提出了远高于“画面好不好看”的要求。

论文题目： VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 论文链接： https://ieeexplore.ieee.org/document/11250949 代码链接： https://github.com/Vchitect/VBench 项目主页： https://vchitect.github.io/VBench-project/

一、从“拍一段视频”，到“建模一个世界”

早期的视频生成，关注点很简单：画面清不清晰？动作顺不顺？美不美？但当视频生成被推向更复杂的任务，这些标准开始显得不够用。一个世界模型级别的视频生成系统，至少要回答三件事：

它能否从一个给定的世界状态继续生成？
它能否在更长时间尺度上保持一致的世界规律？
它在真实世界语境下，是否值得被信任？

换句话说：世界模型不只要会“生成”，还要接得住、撑得久、靠得住。而这三点，恰恰是长期以来视频生成评测中被系统性忽略的部分。也正因此，VBench++ 的目标并不只是“跑分”或者“排名”，而是提供一套可解释、可复现、可诊断，并且能够覆盖 T2V / I2V / 长视频 / 可信性的系统性评测体系。

二、被忽视的第一道门槛：I2V，不只是“另一个任务”

在真实应用中，视频生成很少是“凭空开始”的。更多时候，模型面对的是：一张已有的图像、一个当前世界状态、一个已经存在的场景。这正是 Image-to-Video（I2V）的重要性：不是生成，而是“续写世界”。

然而，过去很长一段时间里，I2V 往往只是 T2V 的“附属测试”：

不同模型被强行拉到同一分辨率
不同宽高比被粗暴统一
输入图像质量本身成为隐性瓶颈

结果是：评测结果往往混合了模型能力、设置偏置和输入退化。

如果说 T2V 测的是视频生成模型“想象力”，那 I2V 测的，其实是世界模型中更关键的一点 --- 状态是否能被正确继承与演化。

三、让 I2V 更公平：Image Suite + 自适应宽高比：

I2V 的评测难点之一是“设置不统一”：有的模型默认 1024×576，有的模型默认 256×256；有的偏 16:9，有的偏 1:1。把所有模型强行拉到同一分辨率，可能会引入额外的退化，导致评测不公。

为此，VBench++ 引入了面向 I2V 的 Image Suite。它不是随机抓的一堆图片，而是一个专门为 I2V 公平评测设计的图像测试集基准：

(1) 高分辨率：以 4K+ 图片为主，减少输入瓶颈对生成质量的限制

(2)自适应宽高比：通过pipeline适配/覆盖一系列宽高比，尽量让模型在各自的“最优默认设置”下被评测

(3) 内容多样且均衡：覆盖前景 / 背景多类内容，强调类别内多样性

(4) 图文成对：每张图片配套精修文本提示，支撑 I2V 条件一致性评估，I2V 不再是“顺带测一下”，而是被当作世界模型能力的关键一环来认真对待。

第二道门槛：长时间一致性，才是真正的“世界”

很多视频生成模型，在前几秒表现得相当惊艳。但只要拉长时间尺度，问题就会逐渐显现：人物身份缓慢漂移,物体属性悄然改变,场景结构在不知不觉中崩塌。这些问题，在短视频里不一定明显，但在长序列中会被无限放大。

世界模型的难点，从来不在“第一帧”，而在“第 N 帧”。如果模型无法在更长时间跨度内维持一致的世界状态，那么它更像是在“不断重画”，而不是在“模拟世界”。

第三道门槛：当视频生成进入现实应用，评测也必须更谨慎地考虑“可信性”

还有一个问题，过去很少被当作视频生成评测的核心维度：这个模型，是否值得被信任？当生成视频开始进入真实生产链路，以下问题无法回避：

不同文化语境下，模型是否存在系统性偏差？
人物生成中是否隐含性别或肤色偏置？
是否会在看似普通的提示下生成不安全（色情暴力等）内容？

这些问题，并不会体现在“画面质量”或“语义贴合度”里，却直接决定模型能否被安全部署。世界模型不仅要“像”，还要“稳”和“负责任”。

VBench++ 将 Trustworthiness（可信性）正式纳入评测框架，系统性地覆盖：

跨文化一致性(Culture Fairness)
性别与肤色偏差(Gender / Skin Tone Bias)
安全性与风险内容(Safety)

这些维度同样配套了自动化评测方法，并通过大规模人类偏好标注进行对齐验证，让“可信性”评估不止停留在定性讨论。

评测的角色，正在发生变化

正是在这样的背景下，VBench++让视频生成评测开始从“跑分工具”转向“能力诊断”。它的目标并不只是“给模型排名”，而是提供一套可解释、可复现、可诊断，并且能够覆盖 T2V / I2V / 长时一致性 / 可信性的评测体系。

VBench++的核心思想并不复杂：

不要试图用一个分数概括一切，而是把“视频生成能力”拆解成可诊断的维度。

四、附录：VBench 系列榜单怎么用？

如果你想快速对比不同视频生成模型的能力，VBench 系列目前提供了多个互补的榜单入口。它们的区别不在于“谁更权威”，而在于你关注的任务形态与能力维度不同。

总榜入口（Leaderboard）： https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

下面是三个最常用的榜单：

(1) VBench-T2V 榜单：Text-to-Video 的“基础体检”

如果你评测的是文生视频（T2V），想知道模型在“生成质量 + 条件一致性”上的综合表现，从这里开始最合适。

覆盖 16 个核心能力维度（更像一份结构化体检报告，而不是单一总分）
收录 100+ 个 Text-to-Video 模型，更新频率高、对比范围广
适合：做模型选型、快速定位“强项/短板”、写实验对比表格

(2) VBench-I2V 榜单：Image-to-Video 的“状态承接能力”对比

如果你关心的是图生视频（I2V）—— 即“从给定世界状态继续生成”，那这个榜单更对口。重点评估：

在给定输入图像条件下，模型能否稳定继承主体身份、场景信息
当前覆盖约 30 个 I2V 模型（更聚焦、也更贴近应用落地场景）
适合：I2V 模型选型、产品落地前的稳定性与一致性排查

(3) VBench-2.0 榜单：评“内在真实性”的更高阶考题

如果你更关注“世界模型味儿”——模型是否真的具备更强的物理规律、常识推理与结构化理解，那 VBench-2.0 是更合适的入口。它评测的是模型的内在真实性（Intrinsic Faithfulness），包括但不限于：

物理规律（Physics Plausibility）
常识与因果一致性（Common Sense / Causality）
人体解剖合理性（Human Anatomy）
场景组合与结构约束（Composition / Structural Consistency）

这类能力往往不会在“短视频惊艳感”里直接体现，却会在更复杂、更长时程、更真实的任务里决定模型是否可靠。

五、写在最后

当视频生成逐渐被视为世界模型的一种实现形式，评测本身，也需要随之升级。I2V、长时一致性、可信性，并不是附加条件，而是世界模型无法绕开的基本门槛。VBench++ 希望为这个领域提供一把更锋利、也更负责任的尺子：不只告诉你“强不强”，更告诉你“强在哪里、差在哪里”。

合理的评测目标，本身就是指引下一阶段研究与应用的重要指南针。视频生成的发展日新月异：从最初只能生成 1–2 秒的“一眼 AI 视频”，到如今在短视频场景中已足以以假乱真；从展示模型能力，到逐步走入真实生产与交互系统。当世界模型开始进入下游应用，整个领域都需要认真思考：下一步真正值得突破的瓶颈是什么？哪些能力必须被优先检验？又有哪些风险不能被忽视？

评测不应只是跟随模型进步的“事后记录”，而应成为定义问题、约束方向、引导研究的重要工具。

相关资料：从视频生成到世界模型的路线图： https://world-model-roadmap.github.ioVBench 系列评测体系： https://github.com/Vchitect/VBench 视觉生成评测的论文资料库： https://github.com/ziqihuangg/Awesome-Evaluation-of-Visual-Generation 世界模型论文资料库： https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model

VBench++ 并不试图给出终极答案，但希望至少让我们在追问一个更重要的问题时，有一把更清晰的尺子：

这个模型，真的在“理解并演化一个世界”吗？

欢迎使用、也欢迎来“挑战”这个 benchmark！更欢迎社区提出宝贵建议，与我们一起不断打磨评测目标、完善问题定义，为视频生成与世界模型的评测持续添砖加瓦。

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.