网易首页 > 网易号 > 正文 申请入驻

物理AI的「原生」时刻:原力灵机发布具身大模型DM0

0
分享至



当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的 “预训练 - 后适配”(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。



图 1:DM0 在异构语料库上进行预训练 —— 无缝整合互联网、自动驾驶和具身操作数据。

为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从 0 开始」:从训练的最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。

作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能力。



  • 论文名称: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
  • 论文链接:https://arxiv.org/html/2602.14974v1
  • DM0 GitHub : https://github.com/Dexmal/dexbotic
  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0

方法与架构:多源混合训练与空间脚手架

真正的通用机器人需要一个具身原生模型,这要求模型必须调和异构数据源 —— 涵盖互联网语料、自动驾驶日志以及机器人操作轨迹,学习既具有丰富语义又具备物理可执行性的表征。为此,DM0 并未采用简单的端到端多层感知机映射,而是设计了一套精妙的多源混合训练与具身空间脚手架(Embodied Spatial Scaffolding)架构。

整体模型架构



图 2:DM0 架构图,包含 VLM 主干和基于流匹配(Flow Matching)的动作专家。

DM0 的核心架构由两个主要组件构成:

1.VLM 主干网络: 基于 Qwen3-1.7B 大语言模型构建,并增加了一个强大的感知编码器 PE,负责多模态感知、语义理解以及在机器人环境中的具身推理。输入的多视角图像会被调整为 728×728 的高分辨率,经过感知编码器处理后,提取出细粒度的视觉特征。

2. 动作专家: 这是一个基于流匹配的连续控制模块。它不直接从图像提取特征,而是接收来自 VLM 主干网络提取的键值(KV)缓存作为条件输入,从而生成平滑、精确的连续控制动作。

在推理时,DM0 支持两种模式:既可以直接从多模态观察和指令中预测连续动作;也可以先通过 VLM 生成文本形式的具身推理过程,随后将这些推理文本作为条件,引导动作专家输出动作。

多源混合训练

联合优化语言目标与连续控制目标往往会破坏预训练 VLM 中保存的语义表征。为了解决这个问题,DM0 采用了一种受知识隔离(Knowledge Insulation)启发的混合梯度策略。

具体而言,在针对具身机器人数据进行训练时,动作专家的梯度不会回传给 VLM 主干网络。这种解耦操作有效防止机器人动作数据对 VLM 通用常识的侵蚀。与此同时,VLM 仍然会继续使用非具身数据进行更新,不断优化其通用语言和视觉理解能力。此外,VLM 还被监督预测离散的动作 Token,促使它编码出有利于下游连续动作预测的动作相关语义。

具身空间脚手架

为进一步弥合高级语言推理与低级动作控制之间的鸿沟,本文创新性提出一套分层预测框架 —— 具身空间脚手架。在训练中,模型被要求顺序执行以下辅助任务,构建出空间维度的思维链(Spatial CoT):

1. 子任务预测: 将复杂的总指令分解为一系列可解释、易管理的子步骤。

2. 目标边界框预测: 在视觉观察中预测出目标物体或目标区域的 2D 边界框。

3. 末端执行器轨迹预测: 预测机器臂末端在主摄像机视图下的未来 2D 轨迹。

4. 离散动作预测: 预测代表机器人控制命令的离散 Token。

这种设计如同为模型搭建一层层脚手架,引导其从抽象的语义意图,逐步过渡到以物体为中心的空间定位,再到动作相关的几何轨迹,最终落地为底层控制。这种信息瓶颈机制不仅过滤了任务无关的噪声,还极大地限制了动作策略的解空间。

三阶段训练配方:从互联网原生走向具身原生



图 4:预训练、中期训练、后期训练的数据混合比例。

DM0 的强大不仅源于架构,更归功于其精心设计的三阶段训练 pipeline,总计消耗了高达 1.2T Token 的数据。预训练阶段在大规模的互联网、自动驾驶和具身数据上建立强大的多模态感知;中训练阶段加入动作预测,并在跨多种机器人平台的具身数据上把模型锚定为可执行的控制,同时保留通用对话能力;后训练阶段则收窄所使用的本体与数据范围,以便在少数目标平台上稳定视觉 - 运动对齐。

Pretraining

这个阶段,模型在一套极其丰富的异构语料库上进行联合优化,参数全部解冻。数据不仅包含传统的网页文本、教育文献、OCR 数据和通用 VQA,还极具前瞻性地引入 GUI 界面数据、自动驾驶深度检测数据以及大量的具身数据。通过 1.13T Token 的大规模洗礼,模型在获得语义知识的同时,隐式地掌握了物理先验(如空间关系、深度结构、物理动力学)。

Mid-Training

中期训练阶段引入了动作预测模块,数据规模约为 200M 样本。此时,混合梯度策略(知识隔离)开始生效。数据混合了跨形态的单臂 / 双臂机器人轨迹(如 Franka、UR5、ALOHA)、仿真环境数据以及视觉 - 语言指令微调数据(如 Cambrian-10M、LLaVA-OV)。为了增强模型的长程规划能力,本文还专门构建了具身推理(ER)数据集,包含任务分解、进度估计等训练项。

Post-Training

后期训练阶段旨在将模型对齐到实际部署的硬件上。使用约 50M 样本,将目标缩小至少数特定的真实机器人平台。减少不同形态机器人的分布方差,使得模型能在目标机械臂上建立极其稳定的视觉 - 运动映射。

实验结果:在 RoboChallenge 上的碾压级表现

为全面验证 DM0 的物理世界交互能力,DM0 在极具挑战性的 RoboChallenge 真实世界基准 Table30 上进行评估。该基准包含 30 个需要多步推理和精确连续控制的长视野桌面操作任务。

单任务(Specialist)评估



表 1:RoboChallenge Table30 上 SOTA 开源 VLA 模型的对比结果。

如表 1 所示,DM0-Specialist 模型在仅有 2.4B 参数量的情况下,在 UR5、Franka、ARX5、ALOHA 等多个机器人平台上,全面超越参数量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 开源模型,取得了 62.00% 的平均成功率。

值得注意的是,在诸如 “在篮子中整理水果”、“插网线” 和 “扫垃圾” 这类长时序、强交互的复杂任务中,DM0 甚至取得了 100% 或 80% 这样接近完美的成绩,而其他基准模型在这些任务上经常彻底失败(0%)。

多任务(Generalist)评估



表 2:RoboChallenge Table30 上当前最佳的开源 VLA 多任务模型的对比结果。

在更考验模型跨任务适应能力的多任务中(一个模型同时掌握某平台下的所有任务),DM0-Generalist 同样展现出压倒性优势,取得了 37.3% 的平均成功率和 49.08 的任务得分,大幅超越了之前最强的 pi0.5 模型的 17.67% 和 31.27;特别是在 “堆叠彩色方块”、“将鞋子放在鞋架上” 等需要高精度空间理解的任务中,DM0 依然能够打出满分。



表 5:DM0 具备在具身场景中预测子任务的思维链(CoT)能力。

除了卓越的动作执行能力,由于实施了知识隔离,处于 Mid-Training 阶段的 DM0 依然完美保留了多模态对话能力。在具身场景的物体检测、复杂图表 OCR 识别、甚至是作为手机智能体(Mobile Agent)识别外卖按钮的任务中,它也能对答如流。

结论与未来展望

DM0 从根本上重新思考了通用机器人策略的开发路径。它证明了与其让纯语义的大语言模型在事后去适应机器人身体,不如在预训练的萌芽期,就将物理世界的感知与多源数据相融合,构建一个真正意义上的具身原生 VLA 模型;其独创的混合梯度训练保护了认知不退化,而具身空间脚手架则赋予了模型三维空间的推理直觉。

尽管 DM0 已经树立了一个强大的基准,但这仅仅是 Physical AI 迈出的一小步。论文的最后,作者团队也指出了几个极具潜力的演进方向:

1. 具身原生的 Scaling Laws: DM0 目前依然是一个 2B 级别的轻量化模型。未来,团队计划将其扩展至 7B 甚至 30B 规模,并吞吐更为庞大的仿真 + 真实的混合数据集,以期观察到在物理推理层面的涌现能力。

2. 更广阔的多模态感知: 现实世界的物理交互绝不仅限于看和说。DM0 的预训练阶段未来有望直接整合触觉反馈、音频以及纯深度信息,让机器人即便在视野受限的动态环境中依然游刃有余。

3. 长程推理与世界模型: 现有的空间脚手架虽然解决了部分规划问题,但跨越超长时间维度的任务仍是业界难题。未来,若能将世界模型整合进 DM0 ,赋予机器人在脑海中预演动作后果并进行长期规划的能力,真正的全能型 Physical AI 将不再遥远。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别再乱插电视HDMI接口了1、2、3不是随便用,插错万元电视也白费

别再乱插电视HDMI接口了1、2、3不是随便用,插错万元电视也白费

辉哥说动漫
2026-05-08 13:13:02
印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

云舟史策
2026-04-22 07:24:21
发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

爱竞彩的小周
2026-05-08 19:53:26
朝鲜导游懵了:这么贵的水果,为什么中国游客却舍得买?

朝鲜导游懵了:这么贵的水果,为什么中国游客却舍得买?

老特有话说
2026-05-05 15:23:38
记者:曼联预计卡塞米罗下周回归;乌加特在训练中受伤

记者:曼联预计卡塞米罗下周回归;乌加特在训练中受伤

懂球帝
2026-05-09 21:17:05
巩俐和替身合影:俩人长得几乎一模一样,你能分清她俩谁是谁吗?

巩俐和替身合影:俩人长得几乎一模一样,你能分清她俩谁是谁吗?

乡野小珥
2026-05-09 17:22:51
伊朗和俄罗斯,都对中国产生了严重的战略误判!

伊朗和俄罗斯,都对中国产生了严重的战略误判!

谈芯说科技
2026-05-08 19:28:15
大妈在深圳当保姆10年,被冤枉偷手镯,回家打开行李箱后愣住了

大妈在深圳当保姆10年,被冤枉偷手镯,回家打开行李箱后愣住了

青青会讲故事
2025-10-17 17:06:25
暗网1600美元叫卖的后门,专偷Linux服务器SSH密码

暗网1600美元叫卖的后门,专偷Linux服务器SSH密码

字节漫游指南
2026-05-08 19:08:00
邻居闯进家中求助,男子为保护儿子婉拒,双方互留书信道歉,一个说请原谅一个说很愧疚

邻居闯进家中求助,男子为保护儿子婉拒,双方互留书信道歉,一个说请原谅一个说很愧疚

潇湘晨报
2026-05-08 19:19:25
失去中国市场,世界杯一文不值,国际足联为何还敢对华发动价格战

失去中国市场,世界杯一文不值,国际足联为何还敢对华发动价格战

乐趣纪史
2026-05-09 20:09:59
马斯克4个孩子的母亲真相大白!女方法庭亲口作证,自曝受孕过程

马斯克4个孩子的母亲真相大白!女方法庭亲口作证,自曝受孕过程

生命之泉的奥秘
2026-05-09 00:52:50
高盛狂扫7家半导体龙头!最高毛利率67%,外资抄底科技股?

高盛狂扫7家半导体龙头!最高毛利率67%,外资抄底科技股?

慧眼看世界哈哈
2026-05-09 14:30:58
尺度不输《斯巴达克斯》,这部史诗级大作太过瘾了

尺度不输《斯巴达克斯》,这部史诗级大作太过瘾了

来看美剧
2026-05-09 19:19:49
【旧事】邓丽君真正死因:控制不了自己,到时候就会“欲罢不能”

【旧事】邓丽君真正死因:控制不了自己,到时候就会“欲罢不能”

年之父
2026-05-09 04:05:03
山东一男子养了多年的锦鲤缺氧死亡,朋友转头就给炖了汤:扔了可惜,20多斤的鱼,光鱼子就有3.6斤,味道很鲜美

山东一男子养了多年的锦鲤缺氧死亡,朋友转头就给炖了汤:扔了可惜,20多斤的鱼,光鱼子就有3.6斤,味道很鲜美

海峡网
2026-05-09 18:32:58
曾被马来西亚侵占的琼台礁,战略价值远超黄岩岛,后来怎么样了?

曾被马来西亚侵占的琼台礁,战略价值远超黄岩岛,后来怎么样了?

泠泠说史
2026-05-09 20:07:27
总结了一些锻炼“大脑前额叶”的小方法,孩子真的越来越聪明了!

总结了一些锻炼“大脑前额叶”的小方法,孩子真的越来越聪明了!

蓁蓁心理抚养
2026-05-06 12:00:08
弘一法师悟道:人活着,其实就两件事,想通了,一辈子都顺了

弘一法师悟道:人活着,其实就两件事,想通了,一辈子都顺了

心理观察局
2026-05-09 09:10:05
伦敦世乒赛最新战报,3-0,3-0,王曼昱孙颖莎立功,蒯曼轻松

伦敦世乒赛最新战报,3-0,3-0,王曼昱孙颖莎立功,蒯曼轻松

云隐南山
2026-05-09 21:00:45
2026-05-09 21:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142646关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

香港富豪孙女被绑架 绑匪拿到2800万后逃跑8人花11万

头条要闻

香港富豪孙女被绑架 绑匪拿到2800万后逃跑8人花11万

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
教育
手机
艺术
军事航空

家居要闻

菁英人居 全能豪宅

教育要闻

2026年能“捡漏”的3所985大学,录取分数极低,性价比超高!

手机要闻

消息称今年市场除华为Pura X Max外,还有3台阔折叠即将发布

艺术要闻

齐白石 紫藤蜜蜂

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版