网易首页 > 网易号 > 正文 申请入驻

击败谷歌、英伟达!星动纪元陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力登顶全球

0
分享至

在全球具身智能领域的顶级权威评测 WorldArena 榜单中,清华陈建宇(星动纪元创始人)团队联合斯坦福 Chelsea Finn(PI 创始人) 团队研发的 Ctrl-World 世界模型交出优异答卷:


·具身任务能力斩获全球第一,更在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度登顶;

·视频生成能力排名全球第二,仅次于阿里 Wan 2.6,强势超越谷歌 Veo 3.1、英伟达 Cosmos-Predict 2.5 等世界顶尖模型;

·Ctrl-World 成为在「视频生成质量」(看起来真实) 与「具身任务」(真正可用) 两大维度均跻身顶级梯队的世界模型



14 个世界模型在WorldArena 融合多维度表现的EWMScore 综合指标评分

(a) Ctrl-World在具身策略评估一致性上高达0.986,远超英伟达等同类模型;(b) Ctrl-World 以59.70 在视频生成质量上排名全球第二,超越谷歌Veo 3.1(58.87),仅次于阿里Wan 2.6(61.86)

WorldArena

全球具身世界模型的「终极试炼场」

WorldArena 之所以能成为行业公认的权威榜单,核心在于其「全面、硬核、具引领性」的定位,彻底区别于泛化的 AI 评测体系,其专业权威源于三大核心特质:

1. 硬核基准:顶尖学术共建,全方位综合评测

WorldArena由清华大学牵头,联合普林斯顿大学、新加坡国立大学、北京大学、香港大学、中科院、上海交通大学、中国科学技术大学等8全球顶尖学术机构共同研发,团队成员均为具身智能、计算机视觉、机器人学领域的权威学者,共同制定了兼具科学性与实用性的硬核评测标准。

该体系聚焦具身世界模型这一核心领域,打造了涵盖 16 大核心指标、3 大真实应用任务的全方位综合测试场景,全面考核模型的感知精度、物理理解、空间认知、动作预测及实际落地适配能力,实现对具身智能核心技术的全方位、深层次检验,而非单一维度的能力比拼。

2. 参赛阵容鼎盛:全球巨头与顶尖机构同台竞技

得益于其权威的评测标准与行业影响力,全球顶尖具身世界模型研发团队均主动参与评测,首批参评阵容涵盖国际科技巨头、顶尖学术机构,包括:谷歌、英伟达、阿里、字节、智谱、智元、极佳视界、清华大学、斯坦福大学、北京大学、香港大学、普林斯顿大学等

此次共有全球顶尖 14 款参赛模型同台竞技,覆盖通用视频生成衍生模型、机器人专用模型等所有主流技术路线,真正形成「全球顶级玩家齐聚」的格局,榜单结果不仅是各模型能力的直观排名,更成为行业技术研发、方向布局的重要「风向标」,引领具身智能领域的创新发展。

3. 评测硬核:16项指标+ 3 大任务,直击「真干活」的核心需求

WorldArena 的评测体系围绕「具身实用」设计,聚焦「真能干活」:


视频质量6 大评估维度示意图:视觉质量、运动质量、内容一致性、物理贴合度、3D精度、可控性,每个维度都有明确的优劣判断标准

6 大核心维度涵盖视觉质量、运动质量、内容一致性、物理贴合度(Physics Adherence)、3D 准确性(3D Accuracy)、可控性,细分为 16 项量化指标,每一项都对应机器人实际应用的痛点;


具身任务评估体系概览:通过数据引擎、策略评估、动作规划三大任务,全面测试模型的实战能力

3 大具身任务(数据引擎、策略评估、动作规划)模拟模型的真实使用场景,直接考核「生成的内容能不能训练机器人」、「模拟的环境能不能测试策略」、「规划的动作能不能完成任务」;

70 位专业标注者对 3500 个视频进行主观评估,确保结果既符合技术标准,又贴近人类对「实用」的直觉判断。


现有世界模型基准与WorldArena 的评测维度对比:

该表从视频质量6 个子维度、具身任务3 大核心角色及人类评估维度,全面对比了主流评测基准与WorldArena 的覆盖情况,直观体现了WorldArena 在具身任务评测上的独家优势,是其成为具身世界模型专属评测金标准的核心依据。

这种「技术指标 + 实用任务 + 人类校验」的三重考核,让 WorldArena 的排名不只是「分数高低」,更是模型实际应用价值的直接体现。

Ctrl-World 四大具身维度登顶

斩获具身任务能力全球第一


14款世界模型在视频质量三大维度(视觉质量、运动质量、内容一致性)的各项指标评分表:

Ctrl-World 在主体一致性全球第一 (0.8411)


14 款世界模型物理贴合度、3D准确性及可控性评分:

Ctrl-World在轨迹准确性(0.4766)、深度准确性(0.9300)等核心指标上的领先地位,其中轨迹准确性(0.4766)位列全球第一

1. 主体一致性全球第一(0.8411):筑牢具身任务落地的基础

Ctrl-World 以 0.8411 的得分拿下该指标全球第一。这一指标用于衡量视频中生成物体的身份、外观与形态在时序维度的稳定程度,Ctrl-World 的领先表现,使其生成的机器人操作视频能最大程度规避物体位置漂移、形态形变或身份混淆等问题,为机器人作业提供了高保真的「数字孪生」交互对象。


图中展示了WorldArena 基准中主体一致性(Subject Consistency)的高低分案例对比,直观说明Ctrl-World 以0.8411 位列全球第一的技术优势:

高分案例(90.07):在「adjust bottle」任务中,瓶子在机械臂交互全过程中保持形状、颜色、标识及位置的时序稳定,无漂移或形变,体现高保真「数字孪生」特性;

低分案例(1.242):同场景下瓶子出现严重几何变形与身份特征丢失,产生视觉噪声,直接影响机器人策略训练的可靠性。

2. 轨迹精度全球第一(0.4766):动作精准度媲美真实物理轨迹

轨迹准确性(Trajectory Accuracy)衡量机械臂运动轨迹与真实物理轨迹的对齐度,是机器人动作规划的核心基础。Ctrl-World 以 0.4766 的绝对优势位列全球第一,意味着其生成的机械臂运动轨迹与真实世界物理运动几乎完全吻合,为机器人提供了可信赖的「数字孪生」动作模板。


图中展示了WorldArena 基准中轨迹准确性(Trajectory Accuracy)的高低分案例对比,直观说明Ctrl-World 以0.4766 位列全球第一的技术优势:

高分案例(92.95):在 「move can pot」任务中,机械臂运动轨迹(红色路径线)与真实物理轨迹(GT)高度吻合,动作精准连贯,符合物理运动规律;

低分案例(8.64):同场景下轨迹出现显著偏离,伴随异常跳跃和不连贯动作,无法复现真实物理运动。

3. 深度准确性全球第一梯队(0.9300):3D空间认知遥遥领先

在 3D 准确性维度的深度准确性(Depth Accuracy)指标上,Ctrl-World 以 0.9300(与第一位差距仅 0.0012)属全球第一梯队,展现了对三维空间结构的精准把握。这一能力直接决定机器人在抓取、堆叠、插入等精密操作中的成功率,避免因「空间感知偏差」导致的抓空、碰撞等失误。


该图展示了WorldArena 基准中深度准确性(Depth Accuracy)高低分案例对比,直观说明Ctrl-World 以0.9300 全球第一梯队技术优势:

高分案例(深度准确性 91.58 ):在「stack blocks three」与 「stack bowls two」任务中,生成深度图与真实场景(GT)高度一致,物体空间位置稳定、透视关系合理,机械臂与物体保持正确的空间分离与物理接触,体现精准的三维空间结构认知;

低分案例(深度准确性 59.07):同场景下出现机械臂与物体异常融合(穿透)、严重几何失真、鬼影模糊及阴影缺失,空间完整性崩塌。

4. 策略评估一致性全球第一(Pearson r=0.986):虚拟测试= 真实测试

在最具实用价值的策略评估(Policy Evaluator)任务中,Ctrl-World 与真实物理模拟器(RoboTwin 2.0)的评估结果相关性高达 0.986,近乎完美复刻真实环境动态。这意味着开发者可直接用 Ctrl-World 测试机器人策略,无需搭建昂贵的真实物理环境,大幅降低研发成本。


世界模型与物理模拟器的策略评估结果相关性:

Ctrl-World 的Pearson r=0.986,近乎完美复刻真实环境评估结果,远高于英伟达Cosmos-Predict 2.5 的0.483,印证了其作为虚拟仿真环境的可靠性。

从指标高分到任务成功:

解码Ctrl-World 的「实力转化」

Ctrl-World 在物理贴合度、3D 准确性及可控性等维度的全面领先,并非仅仅是实验室里的数字游戏,而是直接决定了其作为「机器人大脑」的实用价值。WorldArena 的评测数据清晰揭示了这种转化关系:

1. 高保真策略评估:虚拟测试即真实测试

在 Policy Evaluator 任务中,Ctrl-WorldRoboTwin 物理模拟器的评估相关性高达0.986,这意味着在 Ctrl-World 中测试的机器人策略性能,与在真实物理环境中测试的结果几乎无差异。相比之下,Cosmos-Predict 2.5 的相关性仅为 0.483。这一差距的背后的技术逻辑在于:Ctrl-World 通过显式动作建模(Action-Conditioned)架构,将机械臂关节角度、末端执行器位姿等低层物理参数直接作为生成条件,强制模型学习「执行动作 A→产生状态 B」的因果物理链,而非仅仅根据文字描述「猜测」动作。

2. 动作规划成功率:物理准确性直接决定任务成败

在 Action Planner 任务中,虽然当前所有世界模型的绝对成功率仍有提升空间,但 Ctrl-World 的物理准确性优势为其奠定了最可靠的基础。在闭环动作执行任务中,物理贴合度和轨迹精度的高低直接决定了机械臂能否完成「调整瓶子」、「点击铃铛」等操作。Ctrl-World 的轨迹精度(0.4766)和深度准确性(0.9300)确保了生成的动作序列在真实机器人上执行时,能够精准到达目标位置并维持物理稳定的交互,避免了因「空间感知偏差」导致的抓空、碰撞等操作失误。

3. 合成数据的有效性:从「能生成」到「能训练」

在 Data Engine 任务中,Ctrl-World生成数据的物理合理性确保了其可用于训练真实策略。原论文指出,许多模型生成的合成数据虽然视觉上清晰,但因缺乏物理一致性,训练出的策略在真实环境中完全失效(「virtual data training, real world failure」)。而 Ctrl-World 通过嵌入物理引擎约束的训练方式,确保生成的视频不仅「看起来对」,更「物理上对」,使其合成的视频 - 动作序列真正具备训练价值。

Ctrl-World 的「制胜密码」

1. 动作条件化(Action-Conditioned)架构

与 Genie Envisioner、GigaWorld 等文本条件化模型不同,Ctrl-World采用显式动作建模,直接将机器人动作参数(关节扭矩、夹爪开合度)注入生成过程。原论文明确指出:「explicit action modeling plays a critical role in producing physically plausible interactions」(显式动作建模对产生物理合理交互至关重要)。这使其能够精确模拟接触力反馈、惯性传递等物理现象,从根本上避免了文本模型常见的「物体穿透机械臂」、「隔空吸附」等错误。

2. 物理引擎约束嵌入

Ctrl-World 在训练过程中嵌入物理引擎约束,将牛顿力学定律「内化」为生成过程的硬约束。不同于单纯依赖像素统计规律的通用视频模型,Ctrl-World通过物理引擎监督,强制生成内容遵守质量、摩擦、碰撞守恒律。这正是其策略评估相关性达到 0.986 的核心原因 —— 生成过程受物理规律约束,模拟的环境动态与真实物理模拟器的误差极小。

3. 多视图联合与视频预测模型

针对 Depth Accuracy 第一梯队成绩,Ctrl-World融合多视图联合预测与视频预测模型,不仅预测 RGB 像素,更隐式建模深度图与点云结构,利用多视角数据训练空间认知能力,使其在处理「堆叠积木」等需要精确深度准确性的任务时,成功率超仅使用单目视频训练的模型。

从「生成好看」到「真能干活」

世界模型进入新阶段

清华陈建宇团队联合斯坦福 Chelsea Finn 团队研发的 Ctrl-World 在 WorldArena 拿下「具身任务第一、视频生成综合第二」的佳绩,核心在于其精准把握了具身世界模型的本质 ——「以物理规律为根,以空间认知为骨,以功能 utility 为魂」。随着更多模型加入评测、更多场景被纳入体系,WorldArena 将持续推动具身世界模型向「更懂物理、更有空间感、更能干活」的方向发展,加速机器人自主智能的落地进程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“生灵涂炭”,知名女主持人直播中落泪!连线时警报突然响起,网友纷纷祈愿……

“生灵涂炭”,知名女主持人直播中落泪!连线时警报突然响起,网友纷纷祈愿……

新民周刊
2026-03-02 16:00:18
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

上海约饭局
2025-10-31 15:32:01
家里有多少钱,才算有钱人?银行行长:3个条件,达到其一就是!

家里有多少钱,才算有钱人?银行行长:3个条件,达到其一就是!

生活新鲜市
2026-03-02 19:23:03
成功斩首哈梅内伊,特朗普暴露了家底,伊朗的教训给中国敲响警钟

成功斩首哈梅内伊,特朗普暴露了家底,伊朗的教训给中国敲响警钟

小杨侃事
2026-03-03 02:17:07
59岁的糖尿病专家李洪梅因糖尿病离世。看来医生也治不了自己的病

59岁的糖尿病专家李洪梅因糖尿病离世。看来医生也治不了自己的病

新时代的两性情感
2026-03-02 20:17:01
请假2小时被开除后续:女孩改口道歉,官方介入,店主或麻烦大

请假2小时被开除后续:女孩改口道歉,官方介入,店主或麻烦大

社会日日鲜
2026-03-02 20:25:30
给央视卖命19年,连站6年零下几十度春晚分会场,撒贝宁没他微信

给央视卖命19年,连站6年零下几十度春晚分会场,撒贝宁没他微信

百态人间
2026-02-28 15:31:33
以情报部门被曝渗透到伊朗安全高层,伊朗曾组建反间谍机构,查来查去没发现问题,最后发现负责人就是以间谍,其手下还有至少20名双重间谍

以情报部门被曝渗透到伊朗安全高层,伊朗曾组建反间谍机构,查来查去没发现问题,最后发现负责人就是以间谍,其手下还有至少20名双重间谍

扬子晚报
2026-03-02 17:41:48
日本新晋女神!阿部夏树,魔鬼般的身材比例,算得上是顶级天赋。

日本新晋女神!阿部夏树,魔鬼般的身材比例,算得上是顶级天赋。

情感大头说说
2026-02-28 15:21:28
山东姑娘获 127 票高票当选联合国法官,这才是真正的中国骄傲!

山东姑娘获 127 票高票当选联合国法官,这才是真正的中国骄傲!

眼界看视野
2026-03-02 19:22:50
天道好轮回!小苹果还是走上母亲葛荟婕的老路,汪峰也是有苦难言

天道好轮回!小苹果还是走上母亲葛荟婕的老路,汪峰也是有苦难言

光辉与阴暗
2026-03-02 16:54:29
救命,国产烂片又刷新下限了

救命,国产烂片又刷新下限了

喵喵娱乐团
2026-02-28 16:41:47
突发:莫斯科遭袭击

突发:莫斯科遭袭击

中国网
2026-03-02 16:38:20
机构:若伊朗冲突长期持续 油价或升至每桶100美元

机构:若伊朗冲突长期持续 油价或升至每桶100美元

财联社
2026-03-03 02:52:20
哈梅尸体被找到,伊朗发起五波反制,美军损失惨重,中国开始行动

哈梅尸体被找到,伊朗发起五波反制,美军损失惨重,中国开始行动

领悟看世界
2026-03-03 02:15:21
伟伟道来 |美以伊战争会持续多长时间?有无谈判止战的机会和窗口?

伟伟道来 |美以伊战争会持续多长时间?有无谈判止战的机会和窗口?

经济观察报
2026-03-02 11:30:41
6.5亿预算成本,《飞驰人生3》北美票房惨败,沈腾吴京全被打懵了

6.5亿预算成本,《飞驰人生3》北美票房惨败,沈腾吴京全被打懵了

电影票房预告片
2026-03-02 23:27:38
老两口结婚后将儿女撮合在一起,亲母女嫁给了亲父子,网友热议:“将来孩子出生该怎么喊呢”

老两口结婚后将儿女撮合在一起,亲母女嫁给了亲父子,网友热议:“将来孩子出生该怎么喊呢”

观威海
2026-03-02 09:20:14
终于不用打码了!汪小菲高调晒三胎儿子,马筱梅让俩孩子彻底归心

终于不用打码了!汪小菲高调晒三胎儿子,马筱梅让俩孩子彻底归心

未曾青梅
2026-03-01 20:05:13
哈梅内伊逃离德黑兰,已被转移到安全地点

哈梅内伊逃离德黑兰,已被转移到安全地点

桂系007
2026-02-28 18:23:39
2026-03-03 05:08:49
乐居财经官方 incentive-icons
乐居财经官方
中国地产财经信息平台
114462文章数 4874关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

艺术
本地
手机
家居
公开课

艺术要闻

这四位老人的花鸟画,竟让人欲罢不能!

本地新闻

津南好·四时总相宜

手机要闻

iPhone 17e外观与前代几乎一致 旧款iPhone 16e保护壳可继续用

家居要闻

万物互联 享科技福祉

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版