网易首页 > 网易号 > 正文 申请入驻

李飞飞团队提出世界模型基准:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK

0
分享至

文章转载于量子位(QbitAI)

作者:克雷西

世界模型领域最新进展,要比拼“世界生成”了。

李飞飞吴佳俊团队提出了全面评测基准WorldScore,涵盖了三大类评估指标,动态静态都有涉及,其数据集中包含了3000个测试样例。

并且,WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估,统一到了一起

利用WorldScore基准,团队对一共19款模型进行了全面评估。

评估的结果揭示了当前世界生成技术面临的相机控制能力不足、长序列世界生成困难等主要挑战,为模型研究人员提供了重要参考。

正如网友所评价,从单一场景到整体世界构建的转变,需要这样的基准来对研究做出指导。

1

3D/4D/视频生成统一评测

研究团队认为,之前的基准测试(例如 VBench)仅能评估单个场景的生成能力,远未达到“世界”生成的层次。

并且以前的基准测试仅考虑视频模型,但世界生成模型还包括3D和4D方法,而WorldScore可以对所有这些模型进行统一评估。

WorldScore将世界生成任务分解成一系列连续的下一场景生成任务,每个任务由三个关键组成部分定义:

  • 当前场景:包含一张场景图像和对应的文本描述;

  • 下一场景

  • 布局:一系列相机矩阵定义的相机轨迹,以及描述相机如何移动的文本说明。

数据集方面,WorldScore包含了3000个测试样例,其中2000个用于评估静态世界生成能力,1000个用于评估动态世界生成能力。

静态世界生成数据涵盖了10个场景类别,包括5类室内场景(餐饮空间、居住空间、通道、公共空间、工作空间)和5类室外场景(城市、郊区、水域景观、陆地景观、绿色景观)。

动态世界数据则包含了5种不同类型的运动:关节运动、可变形运动、流体运动、刚体运动和多物体运动。

每个测试样例都有两个版本——真实风格和艺术风格,以评估模型在不同视觉域的表现。

所涉及的指标则包括了可控性、质量和动态评估(静态场景不涉及此项)三个大类。

其中可控性评估,具体又包括了三项指标:

  • 相机控制能力:通过计算生成视频中相机运动与指定轨迹的偏差来评估,具体计算尺度不变的旋转误差和平移误差,然后取其几何平均值;

  • 物体控制能力:使用开放集物体检测模型检查指定物体是否出现在生成场景中,从文本提示中提取1-2个关键物体描述,计算检测到这些物体的成功率;

  • 内容一致性:使用CLIPScore评估生成场景与完整文本描述的语义匹配程度。

质量评估,涵盖了四项内容:

  • 3D一致性:使用DROID-SLAM估计每帧的密集深度图,计算连续帧之间可见像素的重投影误差,评估场景几何结构的稳定性;

  • 光度一致性:通过计算连续帧之间的光流来评估外观和纹理的稳定性,使用平均端点误差(AEPE)来量化不稳定的视觉表现;

  • 风格一致性:计算第一帧和最后一帧Gram矩阵之间的F范数差异,评估风格保持程度;

  • 主观质量:结合CLIP-IQA+和CLIP Aesthetic两个自动评估指标(该组合经过200人的人类研究验证最接近人类感知)。

动态评估则包含三个方面:

  • 运动准确性:比较指定运动区域内外的光流,评估运动是否出现在正确位置;

  • 运动幅度:通过估计连续帧之间的光流大小来评估生成大幅度运动的能力;

  • 运动平滑性:使用视频帧插值模型生成平滑过渡作为参考,评估生成视频的时间连续性。

最终,所有评估指标都经过线性归一化处理到0-100区间,并通过计算控制和质量维度各指标的算术平均值得到WorldScore-Static得分。

在此基础上,再加入动态维度的三项指标成绩,就得到了WorldScore-Dynamic评分。

1

3D模型更擅长静态,视频模型动态效果更好

利用WorldScore,研究团队对19款不同类型模型的世界生成能力进行了评测,包括2款闭源模型和17款开源模型。

评测结果显示,在静态世界生成方面,3D场景生成模型展现出明显优势。其中WonderWorld和LucidDreamer分别以72.69分和70.40分位居榜首,远超表现最好的视频模型CogVideoX-I2V的62.15分。

在动态世界生成方面,则是视频模型展现出了较强的实力,开源模型CogVideoX-I2V以59.12分的成绩领先。

在不同场景类型的测试中,视频模型在室内场景表现相对较好,但在室外场景生成时与3D模型的差距明显扩大。

同时,序列长度对模型性能有显著影响——所有模型在短序列任务上表现尚可,但视频模型在处理长序列时性能显著下降,而3D模型则相对稳定。

此外,研究者还对比了T2V和I2V两类视频模型的特点。结果表明,T2V模型在控制性和动态生成能力方面较强,更容易实现大幅度的相机运动。

相比之下,I2V模型倾向于保持输入图像的视角,虽然生成质量较高,但相机运动相对保守。

1

作者简介

本文的两名共同一作均来自吴佳俊团队,分别是硕士生段皞一(Haoyi Duan)和博士生俞洪兴(Hong-Xing Koven Yu)。

段皞一是浙江大学2023届优秀毕业生,还获得了竺院荣誉学位,本科期间在周钊教授的指导下研究多模态学习。

俞洪兴本科和和硕士均就读于中山大学,硕士期间导师是郑伟诗教授(现任中山大学计算机学院副院长)。

俞洪兴的主要研究方向是物理场景理解、动力学模型与仿真,以及3D/4D视觉生成。

目前,两人正在进行密切合作。

今年入选CVPR HighLight的单图生成交互式3D场景模型WonderWorld,也是两人共同一作。

除了两名共同一作和吴佳俊以及李飞飞之外,斯坦福硕士生Sirui (Ariel) Chen也参与了WorldScore的工作。

论文地址:
https://arxiv.org/abs/2504.00983

点个 “爱心”,再走吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

懂球帝
2026-03-26 12:27:11
押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

小舟谈历史
2026-03-25 06:28:02
台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

百态中的情感起伏
2026-02-16 01:27:29
做人一定不要像张雪峰

做人一定不要像张雪峰

罗sir财话
2026-03-24 21:59:56
东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

懂球帝
2026-03-26 14:13:09
唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

阿龙美食记
2026-03-24 09:50:48
乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

项鹏飞
2026-03-26 21:13:57
陕西关中行政区划调整的构想

陕西关中行政区划调整的构想

普陀动物世界
2026-03-26 12:44:53
张雪峰妻子李丽婧的相关消息引发关注

张雪峰妻子李丽婧的相关消息引发关注

静水流深003
2026-03-26 12:19:49
运势封神!3.30-4.5三大星座事业翻身,之前没白熬,接好运

运势封神!3.30-4.5三大星座事业翻身,之前没白熬,接好运

别人都叫我阿螫
2026-03-25 14:34:30
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
真正的双赢!两大全明星一换一,一人完美融入,另一人则重获新生

真正的双赢!两大全明星一换一,一人完美融入,另一人则重获新生

大卫的篮球故事
2026-03-25 21:47:25
为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

21世纪经济报道
2026-03-26 19:46:02
3月26日俄乌:乌克兰的猛烈回击

3月26日俄乌:乌克兰的猛烈回击

山河路口
2026-03-26 17:32:00
核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

国是直通车
2026-03-22 16:00:02
全是智商税!这5个被吹爆的“网红产物”,谁买谁后悔

全是智商税!这5个被吹爆的“网红产物”,谁买谁后悔

家居设计师苏哥
2026-03-24 13:47:31
知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

游民星空
2026-03-26 17:09:32
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

小光侃娱乐
2026-03-26 06:55:03
2026-03-26 23:32:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
手机
数码
本地

教育要闻

骂人没有杀伤力?那不是白忙活吗?

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版