网易首页 > 网易号 > 正文 申请入驻

断崖第一!深度机智Z-WM再夺WorldArena冠军

0
分享至



编辑 | Panda、陈萍

2026 年 5 月,深度机智(DeepCybo)迎来成立一周年。

过去一年,这家由北京中关村学院与中关村人工智能研究院孵化的具身通用智能(E-AGI)基座模型公司,走了一条在行业看来相当「非主流」的路:不做本体堆量,不攒遥操数据,而是围绕「人类第一视角」数据这个支点,系统性地建立从数据采集、基座模型、空间智能、策略学习到世界模型的完整技术体系。

一年前,当创始人陈凯提出「基于人类第一视角数据构建具身基座模型」的路线,迎来的更多是冷淡和质疑。一年后,当全球具身智能的讨论重心转向「物理 AI」与「数据范式」之争,深度机智已经在这条路上跑了整整一年,并在多个国际权威榜单上用成绩说话。



就在这个一周年节点前后,深度机智又在 WorldArena Track 2 Data Engine 赛道以 88.5 分断崖夺冠,领先第二名 30.5 分!



WorldArena Track2 (Data Engine) 最新排行榜

要知道,WorldArena Track2 赛道的评估非常苛刻:要求模型根据指令生成未来的合成视频观察流,这些数据会被直接注入下游机器人策略网络,并在物理仿真环境中执行闭环抓取任务。最终得分,直接对应这些合成数据给机器人任务成功率带来的提升。

因此,深度机智 Z-WM 在 WorldArena Track 2 的领先,不只是一次榜单成绩突破,更说明其生成数据已经具备较强的物理一致性和任务有效性,可以真正服务于具身智能模型训练

这也回应了外界对世界模型最核心的疑问:世界模型生成的数据,是否真的能成为具身模型训练的数据引擎?至少在 WorldArena Track 2 的评测标准下,Z-WM 给出了肯定答案。

并且,这也不是 Z-WM 第一次登顶 WorldArena。此前在 Track 1(考察生成数据的感知质量和动作响应)中,Z-WM 以 64.96 分超越前榜首 WorldScape v0.2;此次再度登顶 Track 2,意味着深度机智在感知质量、动作响应、物理有效性三个维度上,均已形成系统性领先。



值得一提的是,本次比赛中 Z-WM仅在语言驱动的情况下,在 Track 1 总榜中就已位列第八名,超越一众采用「语言+动作」联合方案的模型。这说明数据管线的深度积累,已经让模型在没有显式动作输入的情况下,也能内化对物理常识的理解。

从 Track 1 到 Track 2,是深度机智具身基座能力的两级验证:先证明「生成得像」,再证明「生成得有用」。

深度机智要做什么

先理解世界,再驱动行动

要理解这次成绩,需要先理解深度机智的定位。

深度机智不是一家做单点模型的公司,而是专注于构建具身通用智能基座模型(E-AGI)的全栈公司。

其核心判断是:具身智能走向通用化的瓶颈,不在硬件,也不在算力,而在于机器人缺乏对物理世界的根本理解。传统路线让机器人学「怎么做」,结果是拟合轨迹、机械复现,一旦场景略有变化便束手无策。深度机智的回答是:先让机器人理解「世界怎么运转」,再执行任务——先理解,后行动

支撑这一判断的是对数据本质的重新认识。

机器人动作轨迹的信息密度本身很低;而人类第一视角数据天然携带空间关系、时序逻辑、物体物理属性乃至操作背后的因果推理,是真正意义上的「物理常识载体」。

这是深度机智一直坚持的一个技术直觉,也是今天支撑其全套体系的根基。

从数据到大脑

深度机智的完整技术路线

深度机智的技术体系不是若干独立算法的组合,而是一条从数据到行动、层层递进的闭环链路。理解这条链路,才能理解每一项成果背后的逻辑。



第一层:数据管线,建立物理常识的源头

深度机智率先建立了以人类第一视角(Egocentric)为核心的ICDC 情境数采体系。与遥操作或仿真数据不同,情境数采强调「动作发生时的前因后果」:它关注的不是手部运动轨迹本身,而是人在真实场景中如何观察、判断和操作,以及这一过程中同步产生的空间关系、场景语境、物体状态变化与物理逻辑。其核心价值不在于复刻动作,而在于把真实交互中的情境经验与物理常识,转化为具身模型可以学习的结构化知识

围绕情景数采范式,深度机智已经构建起数十万小时级人类第一视角多模态数据集DeepAct,覆盖真实世界中的多元物理交互场景。



DeepAct 数据示例

视频链接:https://mp.weixin.qq.com/s/hU5yohoaWKqOPWcSJD4YDA

通过Egocentric2Embodiment等数据转化管线,深度机智又进一步将第一视角视频转化为包含时空关系、物体属性、力学信息和推理过程的结构化监督数据,使这些真实世界经验能够被具身基座模型有效学习,并最终支撑其基座模型体系的形成。

第二层:基座模型,PhysBrain 体系

2026 年 3 月,在中关村论坛上,深度机智正式发布PhysBrain 1.0—— 国内首个以人类学习范式构建、零真机轨迹预训练的具身通用智能基座模型。



PhysBrain 1.0 的核心架构由三项原创技术支撑:

  • PhysBrain 数据管线:将第一视角视频中的隐性物理经验规模化提取为结构化监督信号;
  • TwinBrainVLA 双脑架构:左脑冻结保留通用语义理解,右脑可训练专注精细动作策略,从根本上解决灾难性遗忘问题;
  • LangForce 训练策略:通过贝叶斯分解强制模型在生成动作前最大化动作与指令的互信息,让机器人真正「听懂再行动」;

在仅使用 3000 小时高密度 Egocentric 数据预训练的情况下,PhysBrain 1.0 在 SimplerEnv WidowX 和 Google Robot 上分别达到 80.2% 和 91.3% 的成功率,全面超越 Pi0.5(57.1%)等行业标杆,并在测试中出现令人关注的自主纠错与灵活执行策略 —— 这些行为并未出现在任何训练数据中。

第三层:能力扩展,空间智能与即插即用模块

为进一步强化基座能力,深度机智推出了多项即插即用技术:

  • Euclid's Gift以欧几里得几何问题作为代理任务,向模型注入强大的空间推理先验,发布即在 VSI-Bench 与 MindCube 两大空间推理榜单登顶,且具备零样本迁移能力,无需任务微调。
  • 3D-Mix通过语义条件自适应门控,以轻量级模块形式为 VLA 无缝注入三维空间感知,使多个 VLA 变体在 OOD 测试中平均提升 7% 的绝对性能。
  • IntentVLA将近期视觉历史映射为短视野意图信念,消除部分可观测场景下的执行歧义,在多个主流榜单上提升执行稳定性。

第四层:世界模型与策略,Z-WM 的来源

在基座能力成熟后,深度机智向更关键的一层延伸:世界模型与策略闭环。

EA-WM 解决的是合成数据的物理真实性问题:通过KVAF(结构化运动学到视觉动作场)将机械臂运动学信息直接渲染为与视频帧对齐的视觉场序列,消除低维动作信号与高维视频生成之间的「域错配」;EDLS 事件感知机制让模型聚焦机器人与物体的接触瞬间,生成真正符合物理规律的视频数据。



EA-WM 概况:首先会将机器人动作与运动学状态提升至相机对齐的 KVAF 中。RGB 视频与 KVAF 被编码到共享的 Wan2.2 潜在空间中,并由视频分支和 KVAF 分支分别处理。稀疏事件感知双向融合机制在两个分支之间交换信息,而 EDLS 引导模型关注运动与交互变化。

STARRY 解决的是如何将高质量合成数据转化为精准操作策略:把时空预测与动作生成绑定在同一扩散过程中,通过GASAM(几何感知选择性注意力调制)把策略网络的注意力精准引导到动作关键区域,大幅提升精细操作的准确性。



STARRY 策略包含四个模块:理解专家、时空世界模型、几何专家和动作专家。时空世界模型预测未来的时空潜在变量,而几何专家与 GASAM 生成几何感知权重,以选择性调节动作分支。

两者构成完整闭环:EA-WM 提升合成数据的物理真实性 → STARRY 将高质量数据转化为机器人操作策略 → WorldArena Track2 用下游任务成功率端到端验证这条链路是否真正有效。

第五层:硬件本体,Robot for AI

深度机智的硬件布局同样服务于这条技术主线。

机器人本体不是孤立的硬件产品,而是「机器人大脑」进入真实物理世界的载体。Prime是全球首款断电可自主站立的全尺寸拟人体机器人,身高 173cm,全身 72 自由度,以「人类数据到拟人本体数据的同构映射」为设计目标,让模型的物理直觉,更自然地转化为精准控制。同时,深度机智也推出轮式版本Prime U与轻量化版本Prime Lite,分别面向真实任务执行和教育场景落地。



一周年

从孤立到领先

回溯这一年的轨迹,有一条清晰的叙事线。

2025 年 5 月公司成立时,「基于人类第一视角数据构建具身基座模型」这条路线并不被看好。2025 年底,情境数采范式与 DeepAct 数据底座逐步形成,数据飞轮开始转动。2026 年 3 月,PhysBrain 1.0 在中关村论坛发布,3 个月内推进 3 轮融资,超 60 家机构对接,融资规模达数亿元量级。2026 年 5 月,WorldArena Track2 断崖夺冠,具身基座能力获得国际权威验证。

深度机智的敏锐之处在于,当全球风向在 2026 年初转向时,他们已在这一赛道上奔跑了一年。

这一年,他们完成了从数据范式到基座模型、从空间智能到世界模型的完整技术拼图,也用一系列国际榜单成绩证明了这条路线的可行性。

这次 Track2 夺冠,对行业的意义不止于冠军本身。它宣告了世界模型评测范式的一次切换:分数不再由帧质量决定,而由机器人能不能完成任务决定。能生成好视频的团队已经很多,Track 1 前六名全是国内团队;但能生成「可用于训练机器人」的合成数据的,凤毛麟角。深度机智跨越的,正是这道更高的门槛。



如果高物理保真度的合成数据生成能力走向成熟,机器人数据采集成本将大幅下降,具身智能商业化进程有望显著加速。当然,目前成绩建立在仿真闭环测试基础上,从仿真到真实世界的泛化,仍是需要持续验证的课题。STARRY 已在真实机器人平台 ARX R5 双臂上完成第一步验证:平均成功率从 42.5% 提升至70.8%,这条路有人在走,且已经走出了值得关注的一步。

看起来,具身智能的竞争重心正在真实地迁移:从「谁有更多真实数据」转向「谁能生成更多数据」,不仅如此,更要看谁能把真实人类经验、物理理解、世界预测、动作策略和机器人本体系统串成闭环。当这条闭环真正跑通,深度机智这一年建立的系统能力,将是更长期的护城河。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

杰丝聊古今
2026-05-18 01:01:55
ESPN:阿隆索上任后先改规矩?切尔西的引援思路要转向

ESPN:阿隆索上任后先改规矩?切尔西的引援思路要转向

乐道足球C
2026-05-18 15:18:20
诗人余秀华报警:有粉丝翻墙进院,还走到房间,有人直播,被纠缠到无法写作

诗人余秀华报警:有粉丝翻墙进院,还走到房间,有人直播,被纠缠到无法写作

上观新闻
2026-05-18 12:21:36
住房城乡建设部:今年所有城市都要进行“体检”

住房城乡建设部:今年所有城市都要进行“体检”

闪电新闻
2026-05-17 13:25:20
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
现场直击!郭富城陪方媛返安徽县城奔丧,夫妻戴孝在灵前跪别外公

现场直击!郭富城陪方媛返安徽县城奔丧,夫妻戴孝在灵前跪别外公

八卦宝宝
2026-05-17 01:12:59
一发现就是肠癌晚期,其实早有征兆!医生:这样的大便警惕是肠癌

一发现就是肠癌晚期,其实早有征兆!医生:这样的大便警惕是肠癌

观星赏月
2026-05-18 15:48:18
副师长和师参谋长,到底谁的级别更高一些?

副师长和师参谋长,到底谁的级别更高一些?

起喜电影
2026-05-17 21:16:34
老外猛夸张雪机车第5冠!老板亲自洗车,欧洲日本老总根本做不到

老外猛夸张雪机车第5冠!老板亲自洗车,欧洲日本老总根本做不到

小虎新车推荐员
2026-05-18 10:05:47
何超蕸追悼会:大姐何超琼全家安排,郭晶晶李泽楷数百位富商送别

何超蕸追悼会:大姐何超琼全家安排,郭晶晶李泽楷数百位富商送别

素素娱乐
2026-05-17 15:24:42
B费:相比自己 希望大家更关注姆伯莫的进球;能否破纪录不重要

B费:相比自己 希望大家更关注姆伯莫的进球;能否破纪录不重要

云隐南山
2026-05-18 16:00:31
A股“新股王”诞生!688808,股价反超贵州茅台|盘中速报

A股“新股王”诞生!688808,股价反超贵州茅台|盘中速报

每日经济新闻
2026-05-18 10:46:12
特朗普刚下飞机就被群嘲,中方反手就是一份厚礼,全球都安静了

特朗普刚下飞机就被群嘲,中方反手就是一份厚礼,全球都安静了

夜里的海风
2026-05-18 13:00:38
成功收复台湾以后,我国可能面对三种局面,最后一种需要极力避免

成功收复台湾以后,我国可能面对三种局面,最后一种需要极力避免

迷雾中的大眼睛
2026-05-17 10:34:15
内维尔点名曼联夏窗必签6人:拒绝“螃蟹”中场,挖角森林新星

内维尔点名曼联夏窗必签6人:拒绝“螃蟹”中场,挖角森林新星

星耀国际足坛
2026-05-18 14:18:25
人活到多大岁数离开,堪称完美谢幕,活到这个岁数即可,你赞同吗

人活到多大岁数离开,堪称完美谢幕,活到这个岁数即可,你赞同吗

暖风吹过竹林
2026-05-16 10:14:30
就在刚刚,《解放军报》发布严正声明

就在刚刚,《解放军报》发布严正声明

果妈聊娱乐
2026-05-18 10:06:52
这个“界”车,4月销量仅26台!

这个“界”车,4月销量仅26台!

电动知家
2026-05-16 18:49:50
重庆多部门回应“男子掌掴婴儿”:孩子是安全的,不用过于担心,剩下的交给警方

重庆多部门回应“男子掌掴婴儿”:孩子是安全的,不用过于担心,剩下的交给警方

潇湘晨报
2026-05-18 16:40:35
阿隆索入主切尔西:五笔引援助力斯坦福桥重建?

阿隆索入主切尔西:五笔引援助力斯坦福桥重建?

乐道足球C
2026-05-18 15:54:12
2026-05-18 17:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13025文章数 142650关注度
往期回顾 全部

科技要闻

同一公司,有人奖金是6年工资,我却只有半年

头条要闻

丈夫带人当街抢娃 清华博士妈妈时隔200多天见到幼子

头条要闻

丈夫带人当街抢娃 清华博士妈妈时隔200多天见到幼子

体育要闻

41岁,他还想第5次踢世界杯

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

前4月工业生产较快增长 失业率5.3%

汽车要闻

有五座有七座全系配四驱 哈弗猛龙PLUS限时售16.18万起

态度原创

教育
本地
游戏
健康
亲子

教育要闻

丹凤何以朝阳:人大附中朝阳学校高中部跨越式发展的观察与思考

本地新闻

用苏绣的方式,打开江西婺源

索尼不做我来做!大神历时4年打造纯原生PS2掌机

专家揭秘干细胞回输的安全风险

亲子要闻

纯驼奶粉选哪个品牌更靠谱、不踩坑?2026年纯驼乳严谨靠谱严选,内行私下良心推荐

无障碍浏览 进入关怀版