![]()
现在“世界模型”这词儿太火了,动不动就号称能生成整个虚拟世界。
可你仔细一看——画面是高清了,车也跑得挺溜,但换个角度就穿模,规划器一进去就撞墙。
![]()
看起来像世界,用起来像纸糊的,咱们到底该拿什么尺子量它?
最近,一个叫WorldLens的新评测框架横空出世,直接把“世界模型”的底裤都快扒下来了。
![]()
周叔一直关注自动驾驶和AIGC的进展,这几年生成式模型确实突飞猛进。
从单视角行车记录仪视频,到可控、多视角、长时序的4D场景,技术演进肉眼可见。
但问题也来了——当一个模型自称“世界模型”,我们真该只看它画得多像吗?
![]()
他们指出,传统指标如LPIPS、FVD只能衡量“像不像视频”,却完全忽略了几何一致性、物理合理性、行为可执行性这些决定模型能否落地的核心属性。
于是,WorldBench团队搞出了WorldLens。
![]()
这是目前业内首个覆盖五大维度的全谱系评测体系:生成、重建、指令跟随、下游任务、人类偏好。
它不追求一个总分,而是像体检一样,逐项排查模型在真实应用中的“健康状况”。
![]()
比如在“重建”环节,WorldLens会把生成视频反向重建为4D高斯场,再从新视角渲染。
结果发现,很多模型在原视角看着没问题,一换角度就冒出大量“floaters”(悬浮几何碎片)。
纹理再真,结构一塌糊涂,根本撑不起一个“世界”。
![]()
![]()
咱们再聊聊最扎心的部分:开环看着行,闭环立马崩。
WorldLens专门设计了“指令跟随”测试:把生成的世界喂给一个预训练的自动驾驶规划器,看它能不能安全跑完路线。
![]()
结果令人警醒——几乎所有模型在开环(即不反馈控制)下表现尚可,但一旦进入闭环(规划影响车辆状态),碰撞、越界、路线中断频发。
误差在时序中不断累积,微小的几何偏差最终酿成“事故”。
更值得警惕的是下游任务表现。
有些模型生成的画面堪称电影级,但拿来训练BEV分割或3D检测模型时,性能反而暴跌30%–50%。
![]()
原因很简单:合成数据分布与真实世界错位,几何噪声大,时序不稳。
“好看”不等于“有用”,甚至可能毒化训练。
而最妙的是第五维度——人类偏好。
![]()
基于此,他们训练出WorldLens-Agent,一个能模拟人类判断的自动评估器。
这意味着,主观感受也能被量化、被学习、被规模化应用。
![]()
截至目前,WorldLens已评测包括MagicDrive-V2、DiST-4D、DriveDreamer-2、Panacea等十余个主流开源模型。
![]()
结果很一致:没有一个模型能在五个维度上全面领先。
有的强在纹理生成,弱在几何;有的重建稳定,但行为不合理;还有的开环流畅,闭环失控。
几何与时序稳定性,成了横跨所有任务的“共同瓶颈”。
![]()
这也解释了为何某些“高清模型”在仿真中频频翻车——世界不是靠像素堆出来的,而是靠结构撑起来的。
值得一提的是,WorldLens的代码、数据集和Leaderboard均已开源。
团队明确表示:欢迎全球研究者提交模型,共建公平、透明的评估生态。
![]()
![]()
当AI从“生成内容”迈向“构建世界”,评估标准必须同步升级。
WorldLens的意义,不仅在于暴露现有模型的缺陷,更在于为行业树立了一套“世界属性”的度量衡。
未来的竞争,不再是“谁的画面更美”,而是“谁的世界更真、更稳、更可用”。
只有经得起几何、物理、行为与人类判断四重拷问的模型,才配称一声“世界模型”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.