![]()
这项由清华大学主导、联合东北大学与华南理工大学共同完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026),地点为韩国首尔,收录于PMLR第306卷。感兴趣的读者可以通过论文编号arXiv:2605.03941查阅完整原文。
**一个古老的问题:机器如何真正"理解"世界?**
有没有想过,当你开车从家出发去超市,你的大脑其实在做一件相当了不起的事情:它不仅要处理眼前的画面,还要根据你踩油门、打方向盘的动作,预测下一秒世界会变成什么样子。向左打方向盘,视野就会偏右;踩下刹车,前方的景物就会缓慢停止迫近。这种"我做了什么动作,世界会怎么变"的预测能力,正是人类导航、驾驶、乃至日常行走的核心依赖。
把这种能力赋予机器,就是"世界模型"研究的终极目标。世界模型不是普通的视频播放器,它更像一个可以互动的模拟世界:你给它一张初始画面,然后输入一系列动作指令,它就能生成你从该视角出发、按照那些动作移动后所看到的连续视频画面。如果它做得足够好,这个模拟世界就可以用来训练自动驾驶系统、培养机器人导航能力,甚至成为游戏引擎的替代品。
然而,研究这个领域的科学家们面临一个棘手的困境:没有一套公认的"考场"来检验世界模型的真实水平。这就好比全国各地的驾校都有自己的培训方式,有人用模拟器练习,有人在空旷停车场绕圈,有人在真实道路上跑,但到了最后,谁也说不清楚这些学员放到同一条复杂山路上,究竟谁开得更好。正是为了解决这个"没有统一考场"的问题,清华大学等机构的研究团队构建了一套名为**iWorld-Bench**的综合评测系统,并同步建立了一个包含33万条高质量视频片段的训练数据集,公开了包含4900个测试样本的评测基准,还搭建了一个公开排行榜供全球研究者提交和对比成绩。
**一、现有"考场"到底差在哪里**
在iWorld-Bench出现之前,研究界已经有一些评测方案,但它们存在三个明显的短板,用驾考类比来说,就是"考题太单一、评分标准不统一、最难的科目根本没考"。
第一个问题是场景太单调。现有评测数据集往往来自单一来源,视角几乎清一色是行人视角,就好比驾考只考平路直行,完全不考山路、高速、雨天夜间等复杂工况。真实世界里的观察视角其实非常多元:无人机俯瞰城市、地面机器人穿梭仓库、第一人称步行探索室内空间、自动驾驶车辆在公路上奔跑——这些完全不同的视角对世界模型提出了截然不同的挑战,却被现有评测一并忽略。
第二个问题是"动作语言"不统一。不同的世界模型接受不同类型的控制指令。有些模型听得懂自然语言,你对它说"向左转"它就能生成对应画面;有些模型接受的是键盘按键信号,W代表前进、A代表左移;还有一些更精密的模型,接受的是摄像机内外参数矩阵,就像给一台专业摄影机精确设定焦距和位置坐标。这三类"动作语言"完全不同,直接拿来对比就好比让一个只懂中文命令的司机和一个只懂英文命令的司机跑同一段赛程,然后比较圈速,结果根本没有可比性。
第三个问题是"难科目"缺席。现有评测大多只考查视频生成的视觉质量,就像只看驾驶员开出去的车好不好看,却不考查能不能按照规定路线走、也不考查司机的方向感和记忆力。特别是"记忆能力"这个关键维度——一个优秀的世界模型应该能记住它"走过的路",在执行"前进再后退"这类来回动作后,回到的画面应该和出发时的初始画面保持一致。然而这种循环闭合能力在此前几乎没有被任何评测体系认真检验过。
**二、建造考场的第一步:准备一个多样化的练习场**
建设iWorld-Bench的第一项大工程,是构建一个足够丰富的数据基础——就像建驾校首先要有各种路况的练习场地。
研究团队兵分两路,同时开展数据收集工作。第一路是"整理旧档案":他们系统梳理了12个已有的高质量公开数据集,这些数据集原本各自服务于不同目的。其中有传统自动驾驶数据集,比如在德国卡尔斯鲁厄市街道上采集的KITTI数据集,以及Waymo和nuScenes这两个用于自动驾驶研究的大型数据集;有专门为三维场景重建设计的数据集,比如RealEstate-10K,它来自约8万段YouTube视频,为每一帧画面都标注了摄像机的精确位置和朝向;有机器人巡检数据集,比如密歇根大学校园里采集的NCLT数据集和TartanGround数据集;有无人机视角的数据集,比如TartanAir-V2;还有最新的世界模型专用数据集SpatialVid,规模高达18万段视频。
这12个数据集共同提供了超过23万段视频片段,但麻烦在于它们"说的语言"各不相同——坐标系统不统一,摄像机参数的表示方式也五花八门,有的用四元数表示旋转,有的用六自由度向量,有的用标准变换矩阵。研究团队花费了大量精力,将这些异构数据全部统一转换到同一个标准格式下,就像把不同国家的驾照全部换算成同一套规则体系。
第二路是"建设新赛场":研究团队选取了4个户外城市仿真模拟器,在18个高质量虚拟场景中自动采集数据。他们在这18个场景里手动选定了450个高质量观测点,然后根据预定义的动作空间设计了自动化采集程序,最终生成了10万段1080P高清户外视频。为了保证数据质量,他们还设计了一套两阶段过滤流程:第一阶段在单帧层面检测异常——如果某帧画面突然过曝或出现颜色突变,就将其标记为异常帧;第二阶段在时序层面用统计方法剔除质量不稳定的片段,最终保留时间上连贯、视觉上稳定的高质量序列。
两路数据汇合后,总量达到了33万段视频片段。这个数据集覆盖了四种主要观察视角:无人地面车辆视角、无人机俯瞰视角、人类行走第一人称视角以及机器人视角。环境条件方面,户外涵盖9种天气状况,包括晴天、阴天、雨天、雨夜、雪天、雪夜、多云、部分多云和雾天;室内则涵盖5种光照条件,包括荧光灯、自然采光、昏暗灯光、暖光和人工照明。
数据集建好之后,还需要给每段视频贴上标签,方便后续检索和任务设计。研究团队调用了GPT-4o这个大型语言与视觉理解模型,为每段视频自动生成包含室内外判断、场景描述、场景类别标签、天气或光照条件以及可见实体列表等字段的结构化注释。这一过程共处理了33万段视频,消耗了1.19亿个输入词元和2186万个输出词元,花费约518美元。
为了防止单一模型的偏差,团队还引入了三个来自不同家族的验证模型——Gemini 3.0 Flash、Qwen-VL-Max和Kimi-K2.5——对每条注释独立进行二元判断。只要三个模型的意见不完全一致,该条注释就会被标记为需要人工复核。最终,共有约6.14万段视频(占总量的18.6%)进入人工复核流程,10名志愿者耗费约1200人时完成审核,其中只有约3897段(约1.2%)需要实际修改。这套严格的多模型加人工验证机制,保证了数据标注的高可信度。
**三、统一"考题语言":动作生成框架**
数据准备就绪之后,iWorld-Bench面临的最核心挑战来了:如何让接受不同类型控制指令的世界模型站上同一个考场?
研究团队的解决方案是构建一个"动作生成框架",其核心思想可以用"建立一本万能翻译词典"来理解。他们首先彻底梳理了第一人称视角下所有可能发生的基本动作,将其分为两大类:平移运动和旋转运动。平移运动是摄像机在空间中的位置变化,包括静止不动、向前、向后、向左、向右、向上、向下,以及它们两两或三三组合形成的复合动作,共27种,每种分配一个唯一的平移ID,编号从0到26。旋转运动是摄像机朝向的变化,包括镜头向上仰、向下俯、向右转、向左转、顺时针翻转、逆时针翻转,以及各种组合,同样共27种,分配旋转ID 0到26。平移和旋转的全部组合构成了一个包含729种动作的完整运动空间。
这个系统还为每种动作标注了"难度系数",难度值D的取值范围是1到6。单一参数变化的动作难度为1,两个参数同时变化的难度为2,以此类推,难度值等于同时变化的自由度数目之和。完全静止的状态也被定义为难度1,纳入动作空间之中。此外,系统还为每种动作标注了"有效性"——根据采集数据中各动作的出现频率,将常见动作标记为有效(V=1),将罕见或异常动作标记为无效(V=0)。
由于部分世界模型不支持上下平移或摄像机滚转等特殊运动,研究团队聚焦于目前各类世界模型普遍支持的平移9种和旋转9种,共81种基础动作,建立了一个统一编码映射词典。这个词典的神奇之处在于,它能够将同一个动作同时表示为三种不同的"语言":摄像机内外参数矩阵(供精密摄像机控制型模型使用)、one-hot独热编码键值(供键盘输入型模型使用)以及自然语言文本描述(供文字指令型模型使用)。这样,无论被测模型接受什么类型的输入,评测系统都能将同一个动作翻译成对应的语言,实现真正公平的横向对比。这个框架还具备良好的可扩展性,未来如果出现新的输入模态,只需在词典中增加对应的翻译条目即可。
**四、六种考题,全面检验"驾驶能力"**
有了统一的动作语言,研究团队从33万段视频中精心挑选了2100段高质量视频作为评测集,并据此设计了六种类型的考题,总计4900个评测任务。
前四种考题统称"动作控制"系列,按难度分为四个级别。难度一考查最基础的单自由度动作,包括静止、前进、后退、左移、右移、镜头上仰、镜头下俯、镜头右转、镜头左转这9种基本动作,共设计1000个任务。难度二考查双自由度组合动作,涵盖24种不同的两维度同时变化组合,例如向前同时镜头右转,共设计1000个任务。难度三进入三自由度领域,覆盖32种组合,例如向前向左同时镜头右转,共1000个任务。难度四挑战四自由度复杂动作,覆盖16种组合,共1000个任务。这四个级别的总计4000个任务,专门用于考验世界模型"听指令行事"的精准程度。
第五种考题叫做"记忆能力"测试,这是整个评测体系中最有创意的设计。研究团队设计了一系列"来回动作"路径:让模型先向前走一段,然后向后退同样的距离,理论上应该回到起点;或者先让镜头向右转,然后再向左转回来,理论上应该恢复到初始朝向。如果世界模型真的理解了空间结构并且具备某种"记忆",那么它生成的视频在"来回"之后应该能回到接近初始帧的视觉状态。反之,如果模型只是在盲目生成帧,就会在返回路径上产生明显的视觉不一致。记忆能力任务共设计200个,覆盖前进后退、后退前进、左移右移、右移左移、镜头上仰后下俯、镜头下俯后上仰、镜头左转后右转、镜头右转后左转、上升后下降、下降后上升等10种对称动作配对。
第六种考题叫做"摄像机跟随"测试,专门针对那些能够接受精确摄像机内外参数输入的高精度控制模型。研究团队从采集数据中整理出700个真实的摄像机轨迹文件,直接用这些精确的参数序列驱动模型生成视频,然后考察模型对真实轨迹的跟随精度。这个测试只有接受内外参控制的7个模型才会参加,对其他类型的模型不适用。
**五、九把尺子,测量"驾驶水平"的不同维度**
光有考题还不够,还需要一套客观的评分标准。iWorld-Bench设计了9个评测指标,分属三个维度,就像从视觉效果、路线精准度和方向记忆三个角度为考生打分。
视觉质量维度包含四个指标。第一个是图像质量,使用一个专为多分辨率图像设计的质量评估模型MUSIQ对生成视频的每一帧打分,然后取平均值,衡量画面是否存在过曝、模糊、噪点等基本视觉缺陷。第二个是亮度一致性,将每帧画面的像素灰度分为暗、中、亮三级,构建一个三维亮度分布向量,然后计算视频中每一帧与初始帧之间的相似度,衡量画面亮度是否在整个视频过程中保持稳定,防止出现忽明忽暗的不自然闪烁。第三个是色温约束,在HSV色彩空间中分析画面的色调成分,将色调谱划分为7个区间,计算整段视频相对于初始帧的加权色调相似度,用于判断场景的整体色彩氛围是否保持一致,防止出现"室内暖光突然变成户外冷光"这类不合逻辑的色彩漂移。第四个是清晰度保持,使用一种叫做Tenengrad的方法分别计算画面水平和垂直方向上的边缘梯度强度,构建一个二维清晰度向量,然后引入一个"噪声感知熔断机制":当检测到画面中存在持续高噪声时,系统会自动切换评分逻辑,对高频噪声伪装成的"清晰感"加以惩罚,确保指标真正反映画面细节的真实稳定性。
轨迹跟随维度包含三个指标。运动平滑度采用一种巧妙的间接测量方法:删除生成视频中所有奇数帧,然后用视频插值模型重建这些被删除的帧,接着计算重建帧与原始帧之间的感知相似度(LPIPS)、结构相似度(SSIM)和像素均方误差(MSE)。如果视频运动本来就很流畅,插值重建应该非常准确;如果视频存在抖动或跳变,插值结果就会偏差很大。轨迹精准度则使用一个名为ViPE的视频姿态估计工具,从生成的视频中提取摄像机的运动轨迹,然后在运动切线空间中计算这条轨迹与原始指令序列的方向匹配程度,量化模型"按指令走"的精准度。轨迹容忍度专为拥有真实摄像机轨迹地面真值的摄像机跟随任务设计,同样使用ViPE提取生成轨迹,但这次对比的基准是精确的真实轨迹而非模糊的文字指令,因此能更纯粹地衡量模型在理想控制条件下的物理执行精度。
记忆能力维度包含两个指标。记忆对称性从像素层面评估来回动作的闭环效果:对于一段"先去后回"的视频,将前半段第t帧与后半段对称位置的第T-t+1帧进行像素级对比,计算均方误差后转换为相似度分数,并赋予距离视频中点越远的对称帧对更高的权重,因为越接近视频起末的帧更能直接反映记忆闭合的质量。轨迹对齐则从运动方向层面评估对称性:计算来回路径上对称位置的瞬时位移向量,理想情况下"去程"第t帧的位移方向与"回程"对应帧的位移方向应该正好相反,通过计算两者的镜像相似度来评估模型维持三维空间拓扑一致性的能力。
**六、十四个选手登台,一场全面的"世界模型驾考"**
评测体系建立完成后,研究团队邀请了14个代表性世界模型参加这场大规模评测,所有模型均在英伟达A800 GPU上运行推理。
参赛选手按控制方式分为三组。第一组是文字指令控制组,包含5个模型:英伟达的Cosmos-predict2.5、腾讯的HunyuanVideo-1.5、阿里的WAN 2.2、智谱的CogVideoX-5B-I2V,以及YUME 1.5。这类模型本质上是视频生成模型,通过文字描述来引导画面变化,相当于你用自然语言告诉司机"往前开一段然后向右转"。第二组是独热编码控制组,包含2个模型:Matrix-Game 2.0和HY-World 1.5,它们接受的是按键信号,更像是通过键盘直接操控的电子游戏。第三组是摄像机参数精密控制组,包含7个模型:CameraCtrl、MotionCtrl、CamI2V、RealCam-I2V、VideoX-Fun-WAN、AC3D以及ASTRA,这类模型接受摄像机内外参数矩阵,控制精度最高但技术门槛也最高。
**动作控制与记忆能力**部分的评测结果相当丰富,揭示了三类模型各自鲜明的特点。
在所有14个模型中,综合得分最高的是HY-World 1.5,平均得分0.7873,在记忆能力和轨迹跟随两个维度都表现出色。这说明键盘离散信号控制方式在保证交互精准度方面具有明显优势——与文字控制的CogVideoX-I2V相比,后者的轨迹精准度只有0.5950,而HY-World 1.5高达0.7472,差距相当显著。这可以理解为:用模糊的自然语言"向左走一点"来控制模型,远不如直接按下"A键0.5秒"来得精准。
文字控制组的模型展现出有趣的"扬长避短"特征。CogVideoX-I2V在亮度一致性上拿到了0.8988的高分,这是所有模型中最高的,说明这类模型在保持视觉质量方面经过了高度优化。但代价是轨迹跟随能力较弱,反映出"视觉生成"和"动作服从"这两个目标之间存在一种内在张力——模型在训练时更倾向于学会生成漂亮的画面,而不是精确执行运动指令。
摄像机参数控制组中,VideoX-Fun-WAN综合表现最为均衡,AC3D在记忆对称性上一枝独秀,得分高达0.9068,说明其架构在维持长时间序列的空间拓扑一致性方面有独特优势。相比之下,早期模型CameraCtrl和MotionCtrl在各项指标上全面落后于新一代模型,印证了该领域近几年的快速进步。
一个耐人寻味的观察出现在基础模型与其微调版本的对比中。AC3D是从CogVideoX-I2V微调来的,HY-World 1.5是从HunyuanVideo-1.5微调来的。微调后的版本在轨迹跟随能力上都有了显著提升,但在视觉生成质量上略有下滑。这清楚地揭示了当前世界模型训练中的一个核心矛盾:专注于动作跟随的训练数据会增强可控性,但可能会消耗掉模型原本学到的视觉生成能力。如何在两者之间找到平衡,是未来研究的重要方向。
**摄像机跟随任务**的评测结果则进一步区分了精密控制组内部各模型的差距。AC3D在这一任务中全面领先,轨迹容忍度达到0.9091,亮度一致性0.8927,运动平滑度0.9919,全部位居榜首。这说明它的架构最善于将精确的摄像机参数转化为逻辑连贯的视觉序列。ASTRA的表现则令人有些意外,轨迹容忍度只有0.4286,是参赛模型中最低的,相比之下RealCam-I2V虽然图像质量得分最高(0.5889),但轨迹容忍度也只有0.7480,再次印证了视觉质量与动作可控性是两个相对独立的评测维度,模型在一个维度上的优秀并不能自动保证另一个维度上的优秀。
为了验证这9个自动指标是否真的反映了人类的真实感受,研究团队还开展了一项人类偏好验证实验。12名标注人员对14个模型生成的视频进行了打分,每人对16个难度均匀分布的标准任务评分,总计收集了2688个评分数据点。统计分析显示,自动指标综合排名与人类偏好排名之间的斯皮尔曼等级相关系数为0.8053(对应统计显著性p值远低于0.05的阈值),说明两者高度一致。在14个模型中,排名差距超过5位的只有AC3D一个案例(客观排名第4,人类偏好排名第9),原因分析表明AC3D极强的运动平滑度和记忆对称性确实符合指标要求,但其偏低的图像质量(0.4573,接近所有模型最低值)让人类观看者感受到明显的视觉不适,说明人类在整体评价时对视觉质感的权重比对轨迹精准度更高。
说到底,iWorld-Bench做的事情,是为一个快速发展却缺乏统一标准的技术领域立下了一块重要的基准石。它的数据集够大够多样(33万段视频,覆盖4种视角、9种天气、5种光照),它的评测框架够公平够全面(81种基础动作的统一编码、6类任务、9个指标),它找出的问题也够深刻够实际:世界模型在视觉生成和动作服从之间存在难以调和的矛盾,现有模型的空间记忆能力普遍有限,早期模型已经全面落后而新一代模型还没有达到人类期望的成熟度。
对于普通人来说,这些结论的意义在于:那些未来可能驾驶你出行的自动驾驶系统、那些可能在你家里帮你递东西的家用机器人,它们的"大脑"还没有真正准备好。它们可以生成漂亮的画面,却未必知道自己走了多远;它们可以跟随简单的指令,却往往忘记了自己从哪里出发。通过这套评测系统,研究界现在终于有了一把公认的尺子,可以清楚地看到差距在哪里,并朝着更可靠的方向努力。对这个话题感兴趣的读者,可以通过arXiv编号2605.03941找到原始论文,或者访问iWorld-Bench.com查看持续更新的模型排行榜。
Q&A
Q1:iWorld-Bench评测的"世界模型"和普通视频生成AI有什么本质区别?
A:普通视频生成AI主要根据文字描述生成视频,是单向输出。而iWorld-Bench评测的世界模型是可互动的:你给它一张初始图像加上一系列动作指令(比如"向前走然后向左转"),它要生成你真实按照那些动作移动后会看到的连续画面,类似一个可以实时响应操作的虚拟现实环境。这种双向交互能力是世界模型的核心特征,也是iWorld-Bench重点考查的能力。
Q2:iWorld-Bench的记忆能力测试具体是怎么做的?
A:记忆能力测试的核心设计是"来回动作"路径,共10种对称动作配对,共200个任务。例如让模型先向前运动一段距离,然后向后退相同距离,理论上应该回到起点附近的视觉状态。评测时会比较"去程"和"回程"上对称时刻的画面是否一致(记忆对称性指标),以及两段路径上的运动方向是否互为镜像(轨迹对齐指标)。如果模型缺乏空间记忆,返回路径上的画面就会和出发时明显不同。
Q3:iWorld-Bench评测中表现最好的世界模型是哪个,差距大吗?
A:在动作控制与记忆能力综合评测中,HY-World 1.5排名第一,平均分0.7873;排名最后的是MotionCtrl,平均分0.5486。差距约0.24分,折合百分比约22个百分点。在专门针对摄像机参数精密控制的跟随任务中,AC3D表现最佳,其轨迹容忍度0.9091与垫底的ASTRA(0.4286)之间差距超过47个百分点,说明不同模型在精密控制能力上的分化非常显著。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.