网易首页 > 网易号 > 正文 申请入驻

AI视频生成哪家强?VBench - 全面可拓展的AI视频生成模型评测框架

0
分享至

‍本文研究者提出VBench,一个全面的视频生成模型的评测框架。VBench包含16个分层和解耦的评测维度,与人类的观感评价对齐,提供了多视角的洞察。VBench已全面开源,且支持一键安装。同时也开源了一系列Prompt List(包含在不同能力维度上用于评测的 Benchmark,以及在不同场景内容上的评测 Benchmark)。

论文题目: VBench: Comprehensive Benchmark Suite for Video Generative Models 论文链接: https://arxiv.org/abs/2311.17982 代码链接: https://github.com/Vchitect/VBench 网页链接: https://vchitect.github.io/VBench-project/ 视频链接: https://www.bilibili.com/video/BV1Fu4y1w7fT

一、VBench是什么?

AI 视频生成,是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视频生成模型的发布,更是让人眼前一亮。

随着AI视频生成技术的快速 发展,大家都特别好奇几个问题:


  • 到底哪个视频生成模型最牛?



  • 每个模型有什么特长?



  • AI视频生成领域目前还有哪些值得关注的问题待解决?


为此,我们推出了VBench,一个全面的“视频生成模型的评测框架”,来告诉你“视频模型哪家强,各家模型强在哪”。

VBench不光能全面、细致地评估视频生成的效果,而且还特别符合人们的感官体验,能省下一大堆评估的时间和精力。


  • ️ VBench包含16个分层和解耦的评测维度



  • VBench开源了用于文生视频生成评测的Prompt List体系



  • ️ VBench每个维度的评测方案与人类的观感与评价对齐



  • VBench提供了多视角的洞察,助力未来对于AI视频生成的探索


二、AI视频生成模型 - 评测结果

2.1 已开源的AI视频生成模型

各家开源的AI视频生成模型在VBench上的表现如下。

各家已开源的AI视频生成模型在VBench上的表现。在雷达图中,为了更清晰地可视化比较,我们将每个维度的评测结果归一化到了0.3与0.8之间。

各家已开源的AI视频生成模型在VBench上的表现。

在以上6个模型中,可以看到VideoCrafter-1.0和Show-1在大多数维度都有相对优势。

2.2 创业公司的视频生成模型

VBench目前给出了Gen-2和Pika这两家创业公司模型的评测结果。

Gen-2和Pika在VBench上的表现。在雷达图中,为了更清晰地可视化比较,我们加入了VideoCrafter-1.0和Show-1作为参考,同时将每个维度的评测结果归一化到了0.3与0.8之间。

Gen-2和Pika在VBench上的表现。我们加入了VideoCrafter-1.0和Show-1的数值结果作为参考。

可以看到,Gen-2和Pika在视频质量(Video Quality)上有明显优势,例如时序一致性(Temporal Consistency)和单帧质量(Aesthetic Quality和Imaging Quality)相关维度。在与用户输入的prompt的语义一致性上(例如Human Action和Appearance Style),部分维度开源模型会更胜一筹。

2.3 视频生成模型 VS 图片生成模型

视频生成模型 VS 图片生成模型。其中SD1.4,SD2.1和SDXL是图片生成模型。

2.4 视频生成模型在8大场景类别上的表现

下面是不同模型在8个不同类别上的评测结果。

三、VBench 现已开源

目前,VBench 已全面开源,且支持一键安装。欢迎大家来玩,测试一下感兴趣的模型,一起推动视频生成社区的发展。


各维度评测方案的代码已全面开源: https://github.com/Vchitect/VBench

我们也开源了一系列Prompt List:https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力维度上用于评测的Benchmark,以及在不同场景内容上的评测Benchmark。

左边词云展示了我们Prompt Suites的高频词分布,右图展示了不同维度和类别的prompt数量统计。

四、VBench准不准?

针对每个维度,我们计算VBench评测结果与人工评测结果之间的相关度,进而验证我们方法与人类观感的一致性。下图中,横轴代表不同维度的人工评测结果,纵轴则展示了VBench方法自动评测的结果,可以看到我们方法在各个维度都与人类感知高度对齐。

五、VBench带给AI视频生成的思考

VBench不仅可以对现有模型进行评测,更重要的是,还可以发现不同模型中可能存在的各种问题,为未来AI视频生成的发展提供有价值的insights。

5.1 “时序连贯性”以及“视频的动态程度”: 不要二选一,而应同时提升

我们发现时序连贯性(例如Subject Consistency、Background Consistency、Motion Smoothness)与视频中运动的幅度(Dynamic Degree)之间有一定的权衡关系。比如说,Show-1和VideoCrafter-1.0在背景一致性和动作流畅度方面表现很好,但在动态程度方面得分较低;这可能是因为生成“没有动起来”的画面更容易显得“在时序上很连贯”。另一方面,VideoCrafter-0.9在与时序一致性的维度上弱一些,但在Dynamic Degree上得分很高。

这说明,同时做好“时序连贯性”和“较高的动态程度”确实挺难的;未来不应只关注其中一方面的提升,而应该同时提升“时序连贯性”以及“视频的动态程度”这两方面,这才是有意义的。

5.2 分场景内容进行评测,发掘各家模型潜力

有些模型在不同类别上表现出的性能存在较大差异,比如在美学质量(Aesthetic Quality)上,CogVideo在“Food”类别上表现不错,而在“LifeStyle”类别得分较低。如果通过训练数据的调整,CogVideo在“LifeStyle”这些类别上的美学质量是否可以提升上去,进而提升模型整体的视频美学质量?

这也告诉我们,在评估视频生成模型时,需要考虑模型在不同类别或主题下的表现,挖掘模型在某个能力维度的上限,进而针对性地提升“拖后腿”的场景类别。

5.3 有复杂运动的类别:时空表现都不佳

在空间上复杂度高的类别,在美学质量维度得分都比较低。例如,“LifeStyle”类别对复杂元素在空间中的布局有比较高的要求,“Human”类别由于铰链式结构的生成带来了挑战。

对于时序复杂的类别,比如“Human”类别通常涉及复杂的动作、“Vehicle”类别会经常出现较快的移动,它们在所有测试的维度上得分都相对较低。这表明当前模型在处理时序建模方面仍然存在一定的不足,时序上的建模局限可能会导致空间上的模糊与扭曲,从而导致视频在时间和空间上的质量都不理想。

5.4 难生成的类别:提升数据量收益不大

我们对常用的视频数据集WebVid-10M进行了统计,发现其中约有26%的数据与“Human”有关,在我们统计的八个类别中占比最高。然而,在评估结果中,“Human”类别却是八个类别中表现最差的之一。

这说明对于“Human”这样复杂的类别,仅仅增加数据量可能不会对性能带来显著的改善。一种潜在的方法是通过引入“Human”相关的先验知识或控制,比如Skeletons等,来指导模型的学习。

5.5 百万量级的数据集:提升数据质量优先于数据量

“Food”类别虽然在WebVid-10M中仅占据11%,但在评测中几乎总是拥有最高的美学质量分数。于是我们进一步分析了WebVid-10M数据集不同类别内容的美学质量表现,发现“Food”类别在WebVid-10M中也有最高的美学评分。

这意味着,在百万量级数据的基础上,筛选/提升数据质量比增加数据量更有帮助。

5.6 待提升的能力:准确生成生成多物体,以及物体间的关系

当前的视频生成模型在“多对象生成”(Multiple Objects)和“空间关系”(Spatial Relationship)方面还是追不上图片生成模型(尤其是SDXL),这凸显了提升组合能力的重要性。所谓组合能力指的是模型在视频生成中是否能准确展示多个对象,及它们之间的空间及互动关系。

解决这一问题的潜在方法可能包括:


  • 数据打标:构建视频数据集,提供对视频中多个物体的明确描述,以及物体间空间位置关系以及互动关系的描述。



  • 在视频生成过程中添加中间模态/模块来辅助控制物体的组合和空间位置关系。



  • 使用更好的文本编码器(Text Encoder)也会对模型的组合生成能力有比较大的影响。



  • 曲线救国:将T2V做不好的“物体组合”问题交给T2I,通过T2I+I2V的方式来生成视频。这一做法针对其他很多视频生成中的问题或许也有效。


六、总结

我们推出了VBench,一个全面的视频生成模型性能评估基准套件:


  1. 涵盖全面、层次分明、独立的评估维度;



  2. 与人类感知高度一致;



  3. 为视频生成模型的未来发展提供多维度多视角的指导。


目前,VBench已全面开源,且支持一键安装!欢迎大家来玩,测试一下你感兴趣的模型,一起推动视频生成社区的发展!

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州四季青女老板二姐被女店员撬走老公,两人当街互撕脸面尽失

杭州四季青女老板二姐被女店员撬走老公,两人当街互撕脸面尽失

观世记
2026-03-21 16:28:50
他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

淡淡稻花香s
2026-03-22 02:11:10
高三男生家门现弃婴,DNA 鉴定为亲生子,父母知生母身份后愣住

高三男生家门现弃婴,DNA 鉴定为亲生子,父母知生母身份后愣住

温情邮局
2025-06-14 10:50:03
上海德云社开业首日,杨议老毛病又犯,郭麒麟选择明智

上海德云社开业首日,杨议老毛病又犯,郭麒麟选择明智

老屬科普
2026-03-21 20:36:16
4S店蹭饭260次后续:男子已社死,被同学认出,博主调解反被追责

4S店蹭饭260次后续:男子已社死,被同学认出,博主调解反被追责

离离言几许
2026-03-20 17:20:41
毒性是氰化钾的11倍,3克就能致人死亡!却被农民当宝大量种植?

毒性是氰化钾的11倍,3克就能致人死亡!却被农民当宝大量种植?

兴史兴谈
2026-03-21 05:26:24
老板娘说她屁股翘,她什么意思?

老板娘说她屁股翘,她什么意思?

太急张三疯
2026-03-22 04:19:28
炸穿天际!伊朗再出王炸,美国被坑惨了!

炸穿天际!伊朗再出王炸,美国被坑惨了!

大嘴说天下
2026-03-21 20:55:08
官宣退役不到2年,易建联近况曝光,再次印证了姚明的那句评价

官宣退役不到2年,易建联近况曝光,再次印证了姚明的那句评价

削桐作琴
2026-03-20 17:11:29
彻底撕破脸?卡尼正式通知中国:加征25%关税!数万中企面临抉择

彻底撕破脸?卡尼正式通知中国:加征25%关税!数万中企面临抉择

温读史
2026-03-21 17:07:44
“梅姨案”时间线|追踪23年,“隐身”人贩终现形

“梅姨案”时间线|追踪23年,“隐身”人贩终现形

澎湃新闻
2026-03-21 18:06:27
浙江“办不成事”窗口火了!获群众纷纷点赞,呼吁全国各地学着点

浙江“办不成事”窗口火了!获群众纷纷点赞,呼吁全国各地学着点

细说职场
2026-03-21 17:06:24
浙江一车主崩溃求救:车上有只“超凶大老鼠”!消防员苦战20分钟发现竟是……

浙江一车主崩溃求救:车上有只“超凶大老鼠”!消防员苦战20分钟发现竟是……

台州交通广播
2026-03-22 00:25:57
重温1999:西方媒体报道的炸馆“另一面”,17名军事顾问遇难?

重温1999:西方媒体报道的炸馆“另一面”,17名军事顾问遇难?

干史人
2026-02-27 11:00:05
美以袭击伊核设施,伊朗宣布:正在霍尔木兹海峡采取重大行动,敦促阿联酋关键地点居民撤离!达利欧:霍尔木兹对抗将决定美国霸权能否存续

美以袭击伊核设施,伊朗宣布:正在霍尔木兹海峡采取重大行动,敦促阿联酋关键地点居民撤离!达利欧:霍尔木兹对抗将决定美国霸权能否存续

每日经济新闻
2026-03-21 18:15:43
古巴:古政治制度不容谈判

古巴:古政治制度不容谈判

财联社
2026-03-21 22:48:05
“永远不要和任何人修复关系,无论是谁,人和人的关系只有一次”

“永远不要和任何人修复关系,无论是谁,人和人的关系只有一次”

衷曲无闻
2026-03-20 21:31:55
1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

万象硬核本尊
2026-03-20 19:29:11
宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

混沌录
2026-03-19 21:59:03
小米SU7告别等单,让其他车咋卖?

小米SU7告别等单,让其他车咋卖?

钛媒体APP
2026-03-21 10:37:34
2026-03-22 07:56:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2318文章数 596关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

男子沉迷"打鸟":改装车辆买观鸟装备 一年花掉上百万

头条要闻

男子沉迷"打鸟":改装车辆买观鸟装备 一年花掉上百万

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

家居
健康
旅游
亲子
艺术

家居要闻

时空交织 空间绮梦

转头就晕的耳石症,能开车上班吗?

旅游要闻

【花Young贵阳】春日限定!十里河滩海棠花盛开引客来

亲子要闻

带娃宝妈用什么素颜霜,快速提气色不用卸妆?

艺术要闻

你的母校在吗?毛主席亲笔题名的 20 所大学合集

无障碍浏览 进入关怀版