网易首页 > 网易号 > 正文 申请入驻

断崖第一!深度机智Z-WM再夺WorldArena冠军

0
分享至



编辑 | Panda、陈萍

2026 年 5 月,深度机智(DeepCybo)迎来成立一周年。

过去一年,这家由北京中关村学院与中关村人工智能研究院孵化的具身通用智能(E-AGI)基座模型公司,走了一条在行业看来相当「非主流」的路:不做本体堆量,不攒遥操数据,而是围绕「人类第一视角」数据这个支点,系统性地建立从数据采集、基座模型、空间智能、策略学习到世界模型的完整技术体系。

一年前,当创始人陈凯提出「基于人类第一视角数据构建具身基座模型」的路线,迎来的更多是冷淡和质疑。一年后,当全球具身智能的讨论重心转向「物理 AI」与「数据范式」之争,深度机智已经在这条路上跑了整整一年,并在多个国际权威榜单上用成绩说话。



就在这个一周年节点前后,深度机智又在 WorldArena Track 2 Data Engine 赛道以 88.5 分断崖夺冠,领先第二名 30.5 分!



WorldArena Track2 (Data Engine) 最新排行榜

要知道,WorldArena Track2 赛道的评估非常苛刻:要求模型根据指令生成未来的合成视频观察流,这些数据会被直接注入下游机器人策略网络,并在物理仿真环境中执行闭环抓取任务。最终得分,直接对应这些合成数据给机器人任务成功率带来的提升。

因此,深度机智 Z-WM 在 WorldArena Track 2 的领先,不只是一次榜单成绩突破,更说明其生成数据已经具备较强的物理一致性和任务有效性,可以真正服务于具身智能模型训练

这也回应了外界对世界模型最核心的疑问:世界模型生成的数据,是否真的能成为具身模型训练的数据引擎?至少在 WorldArena Track 2 的评测标准下,Z-WM 给出了肯定答案。

并且,这也不是 Z-WM 第一次登顶 WorldArena。此前在 Track 1(考察生成数据的感知质量和动作响应)中,Z-WM 以 64.96 分超越前榜首 WorldScape v0.2;此次再度登顶 Track 2,意味着深度机智在感知质量、动作响应、物理有效性三个维度上,均已形成系统性领先。



值得一提的是,本次比赛中 Z-WM仅在语言驱动的情况下,在 Track 1 总榜中就已位列第八名,超越一众采用「语言+动作」联合方案的模型。这说明数据管线的深度积累,已经让模型在没有显式动作输入的情况下,也能内化对物理常识的理解。

从 Track 1 到 Track 2,是深度机智具身基座能力的两级验证:先证明「生成得像」,再证明「生成得有用」。

深度机智要做什么

先理解世界,再驱动行动

要理解这次成绩,需要先理解深度机智的定位。

深度机智不是一家做单点模型的公司,而是专注于构建具身通用智能基座模型(E-AGI)的全栈公司。

其核心判断是:具身智能走向通用化的瓶颈,不在硬件,也不在算力,而在于机器人缺乏对物理世界的根本理解。传统路线让机器人学「怎么做」,结果是拟合轨迹、机械复现,一旦场景略有变化便束手无策。深度机智的回答是:先让机器人理解「世界怎么运转」,再执行任务——先理解,后行动

支撑这一判断的是对数据本质的重新认识。

机器人动作轨迹的信息密度本身很低;而人类第一视角数据天然携带空间关系、时序逻辑、物体物理属性乃至操作背后的因果推理,是真正意义上的「物理常识载体」。

这是深度机智一直坚持的一个技术直觉,也是今天支撑其全套体系的根基。

从数据到大脑

深度机智的完整技术路线

深度机智的技术体系不是若干独立算法的组合,而是一条从数据到行动、层层递进的闭环链路。理解这条链路,才能理解每一项成果背后的逻辑。



第一层:数据管线,建立物理常识的源头

深度机智率先建立了以人类第一视角(Egocentric)为核心的ICDC 情境数采体系。与遥操作或仿真数据不同,情境数采强调「动作发生时的前因后果」:它关注的不是手部运动轨迹本身,而是人在真实场景中如何观察、判断和操作,以及这一过程中同步产生的空间关系、场景语境、物体状态变化与物理逻辑。其核心价值不在于复刻动作,而在于把真实交互中的情境经验与物理常识,转化为具身模型可以学习的结构化知识

围绕情景数采范式,深度机智已经构建起数十万小时级人类第一视角多模态数据集DeepAct,覆盖真实世界中的多元物理交互场景。



DeepAct 数据示例

视频链接:https://mp.weixin.qq.com/s/hU5yohoaWKqOPWcSJD4YDA

通过Egocentric2Embodiment等数据转化管线,深度机智又进一步将第一视角视频转化为包含时空关系、物体属性、力学信息和推理过程的结构化监督数据,使这些真实世界经验能够被具身基座模型有效学习,并最终支撑其基座模型体系的形成。

第二层:基座模型,PhysBrain 体系

2026 年 3 月,在中关村论坛上,深度机智正式发布PhysBrain 1.0—— 国内首个以人类学习范式构建、零真机轨迹预训练的具身通用智能基座模型。



PhysBrain 1.0 的核心架构由三项原创技术支撑:

  • PhysBrain 数据管线:将第一视角视频中的隐性物理经验规模化提取为结构化监督信号;
  • TwinBrainVLA 双脑架构:左脑冻结保留通用语义理解,右脑可训练专注精细动作策略,从根本上解决灾难性遗忘问题;
  • LangForce 训练策略:通过贝叶斯分解强制模型在生成动作前最大化动作与指令的互信息,让机器人真正「听懂再行动」;

在仅使用 3000 小时高密度 Egocentric 数据预训练的情况下,PhysBrain 1.0 在 SimplerEnv WidowX 和 Google Robot 上分别达到 80.2% 和 91.3% 的成功率,全面超越 Pi0.5(57.1%)等行业标杆,并在测试中出现令人关注的自主纠错与灵活执行策略 —— 这些行为并未出现在任何训练数据中。

第三层:能力扩展,空间智能与即插即用模块

为进一步强化基座能力,深度机智推出了多项即插即用技术:

  • Euclid's Gift以欧几里得几何问题作为代理任务,向模型注入强大的空间推理先验,发布即在 VSI-Bench 与 MindCube 两大空间推理榜单登顶,且具备零样本迁移能力,无需任务微调。
  • 3D-Mix通过语义条件自适应门控,以轻量级模块形式为 VLA 无缝注入三维空间感知,使多个 VLA 变体在 OOD 测试中平均提升 7% 的绝对性能。
  • IntentVLA将近期视觉历史映射为短视野意图信念,消除部分可观测场景下的执行歧义,在多个主流榜单上提升执行稳定性。

第四层:世界模型与策略,Z-WM 的来源

在基座能力成熟后,深度机智向更关键的一层延伸:世界模型与策略闭环。

EA-WM 解决的是合成数据的物理真实性问题:通过KVAF(结构化运动学到视觉动作场)将机械臂运动学信息直接渲染为与视频帧对齐的视觉场序列,消除低维动作信号与高维视频生成之间的「域错配」;EDLS 事件感知机制让模型聚焦机器人与物体的接触瞬间,生成真正符合物理规律的视频数据。



EA-WM 概况:首先会将机器人动作与运动学状态提升至相机对齐的 KVAF 中。RGB 视频与 KVAF 被编码到共享的 Wan2.2 潜在空间中,并由视频分支和 KVAF 分支分别处理。稀疏事件感知双向融合机制在两个分支之间交换信息,而 EDLS 引导模型关注运动与交互变化。

STARRY 解决的是如何将高质量合成数据转化为精准操作策略:把时空预测与动作生成绑定在同一扩散过程中,通过GASAM(几何感知选择性注意力调制)把策略网络的注意力精准引导到动作关键区域,大幅提升精细操作的准确性。



STARRY 策略包含四个模块:理解专家、时空世界模型、几何专家和动作专家。时空世界模型预测未来的时空潜在变量,而几何专家与 GASAM 生成几何感知权重,以选择性调节动作分支。

两者构成完整闭环:EA-WM 提升合成数据的物理真实性 → STARRY 将高质量数据转化为机器人操作策略 → WorldArena Track2 用下游任务成功率端到端验证这条链路是否真正有效。

第五层:硬件本体,Robot for AI

深度机智的硬件布局同样服务于这条技术主线。

机器人本体不是孤立的硬件产品,而是「机器人大脑」进入真实物理世界的载体。Prime是全球首款断电可自主站立的全尺寸拟人体机器人,身高 173cm,全身 72 自由度,以「人类数据到拟人本体数据的同构映射」为设计目标,让模型的物理直觉,更自然地转化为精准控制。同时,深度机智也推出轮式版本Prime U与轻量化版本Prime Lite,分别面向真实任务执行和教育场景落地。



一周年

从孤立到领先

回溯这一年的轨迹,有一条清晰的叙事线。

2025 年 5 月公司成立时,「基于人类第一视角数据构建具身基座模型」这条路线并不被看好。2025 年底,情境数采范式与 DeepAct 数据底座逐步形成,数据飞轮开始转动。2026 年 3 月,PhysBrain 1.0 在中关村论坛发布,3 个月内推进 3 轮融资,超 60 家机构对接,融资规模达数亿元量级。2026 年 5 月,WorldArena Track2 断崖夺冠,具身基座能力获得国际权威验证。

深度机智的敏锐之处在于,当全球风向在 2026 年初转向时,他们已在这一赛道上奔跑了一年。

这一年,他们完成了从数据范式到基座模型、从空间智能到世界模型的完整技术拼图,也用一系列国际榜单成绩证明了这条路线的可行性。

这次 Track2 夺冠,对行业的意义不止于冠军本身。它宣告了世界模型评测范式的一次切换:分数不再由帧质量决定,而由机器人能不能完成任务决定。能生成好视频的团队已经很多,Track 1 前六名全是国内团队;但能生成「可用于训练机器人」的合成数据的,凤毛麟角。深度机智跨越的,正是这道更高的门槛。



如果高物理保真度的合成数据生成能力走向成熟,机器人数据采集成本将大幅下降,具身智能商业化进程有望显著加速。当然,目前成绩建立在仿真闭环测试基础上,从仿真到真实世界的泛化,仍是需要持续验证的课题。STARRY 已在真实机器人平台 ARX R5 双臂上完成第一步验证:平均成功率从 42.5% 提升至70.8%,这条路有人在走,且已经走出了值得关注的一步。

看起来,具身智能的竞争重心正在真实地迁移:从「谁有更多真实数据」转向「谁能生成更多数据」,不仅如此,更要看谁能把真实人类经验、物理理解、世界预测、动作策略和机器人本体系统串成闭环。当这条闭环真正跑通,深度机智这一年建立的系统能力,将是更长期的护城河。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《Office Romance》女星被假体阴道吓出阴影

《Office Romance》女星被假体阴道吓出阴影

时光慢旅人
2026-06-07 00:02:31
贪便宜买委内瑞拉石油?莫迪无奈跳进美国连环套,中国早看透了

贪便宜买委内瑞拉石油?莫迪无奈跳进美国连环套,中国早看透了

别人都叫我阿腈
2026-06-07 09:12:48
研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

健康之光
2026-05-30 17:59:58
1976年肖劲光遇到杨尚奎妻子水静,跟杨勇说:15年前她打败了陶勇

1976年肖劲光遇到杨尚奎妻子水静,跟杨勇说:15年前她打败了陶勇

雍亲王府
2026-06-07 08:50:09
曼联白忙活!头号目标拒绝三倍工资,宁愿拿 10 万周薪踢英冠

曼联白忙活!头号目标拒绝三倍工资,宁愿拿 10 万周薪踢英冠

澜归序
2026-06-07 07:05:37
290亿!光纤独角兽,全球爆单!

290亿!光纤独角兽,全球爆单!

新浪财经
2026-06-06 18:50:15
凯越只剩2个员工了,张雪说“三条件不谈”,到底谁在清算谁?

凯越只剩2个员工了,张雪说“三条件不谈”,到底谁在清算谁?

原梦叁生
2026-06-05 11:40:03
阿根廷摇滚教父去世后遗言曝光:梅西,要不你再拿个世界杯

阿根廷摇滚教父去世后遗言曝光:梅西,要不你再拿个世界杯

动物奇奇怪怪
2026-06-07 10:12:20
我在卡塔尔工作,不小心摘下穆斯林女子头纱,她却给了我两个选择

我在卡塔尔工作,不小心摘下穆斯林女子头纱,她却给了我两个选择

朗威谈星座
2026-06-07 06:11:46
开心麻花新片惨败,上映三天亏损近1亿,超20位明星助力也没用

开心麻花新片惨败,上映三天亏损近1亿,超20位明星助力也没用

影视高原说
2026-06-07 08:33:03
法国民调:极右翼巴尔德拉32%领先,极左翼梅朗雄14%

法国民调:极右翼巴尔德拉32%领先,极左翼梅朗雄14%

命运自认幽默
2026-06-06 06:44:36
马刺104-105败尼克斯,0-2落后!这一战,我不得不承认5个事实

马刺104-105败尼克斯,0-2落后!这一战,我不得不承认5个事实

篮球扫地僧
2026-06-06 14:49:26
腹腔里全是血,脾脏碎成了“豆腐渣”……28岁女子饭后一个动作,深夜被送进抢救室

腹腔里全是血,脾脏碎成了“豆腐渣”……28岁女子饭后一个动作,深夜被送进抢救室

环球网资讯
2026-06-05 20:10:19
陕西农民被污蔑偷羊,6协警刑逼30小时后身亡,所长判4年仍未收监

陕西农民被污蔑偷羊,6协警刑逼30小时后身亡,所长判4年仍未收监

莫地方
2026-06-05 01:15:04
看了阿里7.5万字长文,我看到了一个时代的结束

看了阿里7.5万字长文,我看到了一个时代的结束

卢松松
2026-06-06 17:28:43
割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

番外行
2026-06-02 14:19:47
曹操杀了杨修后,问其父杨彪为何瘦了,杨彪回了一句话成千古名句

曹操杀了杨修后,问其父杨彪为何瘦了,杨彪回了一句话成千古名句

兴趣知识
2026-05-30 18:54:23
70万刚建仓,3000亿董事长出轨视频全网疯传

70万刚建仓,3000亿董事长出轨视频全网疯传

新浪财经
2026-06-06 23:13:36
舅舅让我来北京帮他看孩子,吃饭时舅妈提了句:以后每月要交2800

舅舅让我来北京帮他看孩子,吃饭时舅妈提了句:以后每月要交2800

阿凯销售场
2026-06-07 06:19:36
棋后诸宸:嫁卡塔尔王室后放弃中国籍,接受一夫多妻,如今后悔吗

棋后诸宸:嫁卡塔尔王室后放弃中国籍,接受一夫多妻,如今后悔吗

文史达观
2025-06-03 18:58:40
2026-06-07 10:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13184文章数 142662关注度
往期回顾 全部

科技要闻

SpaceX上市倒计时 员工开始讨论“买豪宅”

头条要闻

中美都有人提"忘恩负义的人" 中方连对方名字都不想提

头条要闻

中美都有人提"忘恩负义的人" 中方连对方名字都不想提

体育要闻

上海男篮时隔24年夺冠,恐怖的在后面?

娱乐要闻

小S后悔发起日本旅行,再晒照悼念姐姐

财经要闻

SpaceX上市前夕,忙着干三件大事

汽车要闻

BJ30旅行家完成多路况节油实测 百公里油耗突破5升

态度原创

游戏
艺术
家居
数码
公开课

稳了!《归唐》超长实机玩家看爽了:完成度超高 出必买

艺术要闻

西安“瀑布大楼”冲出地面,全新效果图亮相

家居要闻

雅奢之序 五层别墅

数码要闻

十铨科技推出可4G远程抹除数据的外置固态硬盘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版