
责编 | 梦依丹
出品丨AI 科技大本营(ID:rgznai100)
当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的“预训练-后适配”(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。
![]()
图1:DM0 在异构语料库上进行预训练——无缝整合互联网、自动驾驶和具身操作数据
为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从0开始」:从训练的最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。
作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能力。
论文名称: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
论文链接:https://arxiv.org/html/2602.14974v1
DM0 GitHub : https://github.com/Dexmal/dexbotic
DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0
![]()
方法与架构:多源混合训练与空间脚手架
真正的通用机器人需要一个具身原生模型,这要求模型必须调和异构数据源——涵盖互联网语料、自动驾驶日志以及机器人操作轨迹,学习既具有丰富语义又具备物理可执行性的表征。为此,DM0 并未采用简单的端到端多层感知机映射,而是设计了一套精妙的多源混合训练与具身空间脚手架(Embodied Spatial Scaffolding)架构。
整体模型架构
![]()
图 2:DM0 架构图,包含 VLM 主干和基于流匹配(Flow Matching)的动作专家
DM0 的核心架构由两个主要组件构成:
VLM 主干网络: 基于 Qwen3-1.7B 大语言模型构建,并增加了一个强大的感知编码器 PE,负责多模态感知、语义理解以及在机器人环境中的具身推理。输入的多视角图像会被调整为 728×728 的高分辨率,经过感知编码器处理后,提取出细粒度的视觉特征。
动作专家:这是一个基于流匹配的连续控制模块。它不直接从图像提取特征,而是接收来自 VLM 主干网络提取的键值(KV)缓存作为条件输入,从而生成平滑、精确的连续控制动作。
在推理时,DM0 支持两种模式:既可以直接从多模态观察和指令中预测连续动作;也可以先通过 VLM 生成文本形式的具身推理过程,随后将这些推理文本作为条件,引导动作专家输出动作。
多源混合训练
联合优化语言目标与连续控制目标往往会破坏预训练 VLM 中保存的语义表征。为了解决这个问题,DM0 采用了一种受知识隔离(Knowledge Insulation)启发的混合梯度策略。
具体而言,在针对具身机器人数据进行训练时,动作专家的梯度不会回传给 VLM 主干网络。这种解耦操作有效防止机器人动作数据对 VLM 通用常识的侵蚀。与此同时,VLM 仍然会继续使用非具身数据进行更新,不断优化其通用语言和视觉理解能力。此外,VLM 还被监督预测离散的动作 Token,促使它编码出有利于下游连续动作预测的动作相关语义。
具身空间脚手架
为进一步弥合高级语言推理与低级动作控制之间的鸿沟,本文创新性提出一套分层预测框架——具身空间脚手架。在训练中,模型被要求顺序执行以下辅助任务,构建出空间维度的思维链(Spatial CoT):
子任务预测:将复杂的总指令分解为一系列可解释、易管理的子步骤。
目标边界框预测:在视觉观察中预测出目标物体或目标区域的 2D 边界框。
末端执行器轨迹预测:预测机器臂末端在主摄像机视图下的未来 2D 轨迹。
离散动作预测:预测代表机器人控制命令的离散 Token。
这种设计如同为模型搭建一层层脚手架,引导其从抽象的语义意图,逐步过渡到以物体为中心的空间定位,再到动作相关的几何轨迹,最终落地为底层控制。这种信息瓶颈机制不仅过滤了任务无关的噪声,还极大地限制了动作策略的解空间。
![]()
三阶段训练配方:从互联网原生走向具身原生
![]()
图3:预训练、中期训练、后期训练的数据混合比例
DM0 的强大不仅源于架构,更归功于其精心设计的三阶段训练 pipeline,总计消耗了高达 1.2T Token 的数据。预训练阶段在大规模的互联网、自动驾驶和具身数据上建立强大的多模态感知;中训练阶段加入动作预测,并在跨多种机器人平台的具身数据上把模型锚定为可执行的控制,同时保留通用对话能力;后训练阶段则收窄所使用的本体与数据范围,以便在少数目标平台上稳定视觉-运动对齐。
Pretraining
这个阶段,模型在一套极其丰富的异构语料库上进行联合优化,参数全部解冻。数据不仅包含传统的网页文本、教育文献、OCR 数据和通用 VQA,还极具前瞻性地引入 GUI 界面数据、自动驾驶深度检测数据以及大量的具身数据。通过 1.13T Token 的大规模洗礼,模型在获得语义知识的同时,隐式地掌握了物理先验(如空间关系、深度结构、物理动力学)。
Mid-Training
中期训练阶段引入了动作预测模块,数据规模约为 200M 样本。此时,混合梯度策略(知识隔离)开始生效。数据混合了跨形态的单臂/双臂机器人轨迹(如 Franka、UR5、ALOHA)、仿真环境数据以及视觉-语言指令微调数据(如 Cambrian-10M、LLaVA-OV)。为了增强模型的长程规划能力,本文还专门构建了具身推理(ER)数据集,包含任务分解、进度估计等训练项。
Post-Training
后期训练阶段旨在将模型对齐到实际部署的硬件上。使用约 50M 样本,将目标缩小至少数特定的真实机器人平台。减少不同形态机器人的分布方差,使得模型能在目标机械臂上建立极其稳定的视觉-运动映射。
![]()
实验结果:在 RoboChallenge 上的碾压级表现
为全面验证 DM0 的物理世界交互能力,DM0 在极具挑战性的 RoboChallenge 真实世界基准 Table30 上进行评估。该基准包含 30 个需要多步推理和精确连续控制的长视野桌面操作任务。
单任务(Specialist)评估
![]()
表 1:RoboChallenge Table30 上 SOTA 开源 VLA 模型的对比结果
如表 1 所示,DM0-Specialist 模型在仅有 2.4B 参数量的情况下,在 UR5、Franka、ARX5、ALOHA 等多个机器人平台上,全面超越参数量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 开源模型,取得了 62.00% 的平均成功率。
值得注意的是,在诸如“在篮子中整理水果”、“插网线”和“扫垃圾”这类长时序、强交互的复杂任务中,DM0 甚至取得了 100% 或 80% 这样接近完美的成绩,而其他基准模型在这些任务上经常彻底失败(0%)。
多任务(Generalist)评估
![]()
表 2:RoboChallenge Table30 上当前最佳的开源 VLA 多任务模型的对比结果
在更考验模型跨任务适应能力的多任务中(一个模型同时掌握某平台下的所有任务),DM0-Generalist 同样展现出压倒性优势,取得了 37.3% 的平均成功率和 49.08 的任务得分,大幅超越了之前最强的 pi0.5 模型的 17.67% 和 31.27;特别是在“堆叠彩色方块”、“将鞋子放在鞋架上”等需要高精度空间理解的任务中,DM0 依然能够打出满分。
![]()
图4:DM0 具备在具身场景中预测子任务的思维链(CoT)能力
除了卓越的动作执行能力,由于实施了知识隔离,处于 Mid-Training 阶段的 DM0 依然完美保留了多模态对话能力。在具身场景的物体检测、复杂图表 OCR 识别、甚至是作为手机智能体(Mobile Agent)识别外卖按钮的任务中,它也能对答如流。
![]()
结论与未来展望
DM0 从根本上重新思考了通用机器人策略的开发路径。它证明了与其让纯语义的大语言模型在事后去适应机器人身体,不如在预训练的萌芽期,就将物理世界的感知与多源数据相融合,构建一个真正意义上的具身原生 VLA 模型;其独创的混合梯度训练保护了认知不退化,而具身空间脚手架则赋予了模型三维空间的推理直觉。
尽管 DM0 已经树立了一个强大的基准,但这仅仅是 Physical AI 迈出的一小步。论文的最后,作者团队也指出了几个极具潜力的演进方向:
具身原生的 Scaling Laws: DM0 目前依然是一个 2B 级别的轻量化模型。未来,团队计划将其扩展至 7B 甚至 30B 规模,并吞吐更为庞大的仿真+真实的混合数据集,以期观察到在物理推理层面的涌现能力。
更广阔的多模态感知:现实世界的物理交互绝不仅限于看和说。DM0 的预训练阶段未来有望直接整合触觉反馈、音频以及纯深度信息,让机器人即便在视野受限的动态环境中依然游刃有余。
长程推理与世界模型:现有的空间脚手架虽然解决了部分规划问题,但跨越超长时间维度的任务仍是业界难题。未来,若能将世界模型整合进 DM0 ,赋予机器人在脑海中预演动作后果并进行长期规划的能力,真正的全能型 Physical AI 将不再遥远。

未来没有前后端,只有 AI Agent 工程师。
这场十倍速的变革已至,你的下一步在哪?
4 月 17-18 日,由 CSDN 与奇点智能研究院联合主办「2026 奇点智能技术大会」将在上海隆重召开,大会聚焦 Agent 系统、世界模型、AI 原生研发等 12 大前沿专题,为你绘制通往未来的认知地图。
成为时代的见证者,更要成为时代的先行者。
奇点智能技术大会上海站,我们不见不散!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.