具身大模型DM0硬核拆解：物理AI如何迎来自己的“原生”时代|dm|动作|模态|推理|机器人|物理ai

具身大模型DM0硬核拆解：物理AI如何迎来自己的“原生”时代

2026-03-03 17:25:43　来源: CSDN

江苏举报

分享至

责编 | 梦依丹

出品丨AI 科技大本营（ID：rgznai100）

当前，大语言模型（LLMs）和视觉语言模型（VLMs）在语义领域的成功未能直接迁移至物理机器人，归根结底在于其互联网原生的基因。主流的“预训练-后适配”（Pretrain-then-Adapt）的范式依赖互联网静态数据，导致模型先天缺失物理基础（Physical Grounding），在落地时往往顾此失彼：要么导致操作与导航的模块割裂，要么引发灾难性遗忘，在追求控制精度的过程中丢失了核心的通用推理能力。

图1：DM0 在异构语料库上进行预训练——无缝整合互联网、自动驾驶

为了打破这一局限，原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生（Embodied-Native） VLA 模型，其工作核心在于「从0开始」：从训练的最初阶段，就采用统一的视角，将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。

作为一个端到端模型，DM0 可以无缝统一机器人的精细操作（Manipulation）与移动导航（Navigation）。在 RoboChallenge 真实世界基准测试 Table 30 中，DM0 在单任务（Specialist）和多任务（Generalist）两种设置下均以显著优势领先现有 SOTA 模型，展现出极其强大的物理世界泛化与执行能力。

论文名称： DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
论文链接：https://arxiv.org/html/2602.14974v1
DM0 GitHub ： https://github.com/Dexmal/dexbotic
DM0 Hugging Face： https://huggingface.co/collections/Dexmal/dm0

方法与架构：多源混合训练与空间脚手架

真正的通用机器人需要一个具身原生模型，这要求模型必须调和异构数据源——涵盖互联网语料、自动驾驶日志以及机器人操作轨迹，学习既具有丰富语义又具备物理可执行性的表征。为此，DM0 并未采用简单的端到端多层感知机映射，而是设计了一套精妙的多源混合训练与具身空间脚手架（Embodied Spatial Scaffolding）架构。

整体模型架构

图 2：DM0 架构图，包含 VLM 主干和基于流匹配（Flow Matching）

DM0 的核心架构由两个主要组件构成：

VLM 主干网络：基于 Qwen3-1.7B 大语言模型构建，并增加了一个强大的感知编码器 PE，负责多模态感知、语义理解以及在机器人环境中的具身推理。输入的多视角图像会被调整为 728×728 的高分辨率，经过感知编码器处理后，提取出细粒度的视觉特征。
动作专家：这是一个基于流匹配的连续控制模块。它不直接从图像提取特征，而是接收来自 VLM 主干网络提取的键值（KV）缓存作为条件输入，从而生成平滑、精确的连续控制动作。

在推理时，DM0 支持两种模式：既可以直接从多模态观察和指令中预测连续动作；也可以先通过 VLM 生成文本形式的具身推理过程，随后将这些推理文本作为条件，引导动作专家输出动作。

多源混合训练

联合优化语言目标与连续控制目标往往会破坏预训练 VLM 中保存的语义表征。为了解决这个问题，DM0 采用了一种受知识隔离（Knowledge Insulation）启发的混合梯度策略。

具体而言，在针对具身机器人数据进行训练时，动作专家的梯度不会回传给 VLM 主干网络。这种解耦操作有效防止机器人动作数据对 VLM 通用常识的侵蚀。与此同时，VLM 仍然会继续使用非具身数据进行更新，不断优化其通用语言和视觉理解能力。此外，VLM 还被监督预测离散的动作 Token，促使它编码出有利于下游连续动作预测的动作相关语义。

具身空间脚手架

为进一步弥合高级语言推理与低级动作控制之间的鸿沟，本文创新性提出一套分层预测框架——具身空间脚手架。在训练中，模型被要求顺序执行以下辅助任务，构建出空间维度的思维链（Spatial CoT）：

子任务预测：将复杂的总指令分解为一系列可解释、易管理的子步骤。
目标边界框预测：在视觉观察中预测出目标物体或目标区域的 2D 边界框。
末端执行器轨迹预测：预测机器臂末端在主摄像机视图下的未来 2D 轨迹。
离散动作预测：预测代表机器人控制命令的离散 Token。

这种设计如同为模型搭建一层层脚手架，引导其从抽象的语义意图，逐步过渡到以物体为中心的空间定位，再到动作相关的几何轨迹，最终落地为底层控制。这种信息瓶颈机制不仅过滤了任务无关的噪声，还极大地限制了动作策略的解空间。

三阶段训练配方：从互联网原生走向具身原生

图3：预训练、中期训练、后期训练的数据混合比例

DM0 的强大不仅源于架构，更归功于其精心设计的三阶段训练 pipeline，总计消耗了高达 1.2T Token 的数据。预训练阶段在大规模的互联网、自动驾驶和具身数据上建立强大的多模态感知；中训练阶段加入动作预测，并在跨多种机器人平台的具身数据上把模型锚定为可执行的控制，同时保留通用对话能力；后训练阶段则收窄所使用的本体与数据范围，以便在少数目标平台上稳定视觉-运动对齐。

Pretraining

这个阶段，模型在一套极其丰富的异构语料库上进行联合优化，参数全部解冻。数据不仅包含传统的网页文本、教育文献、OCR 数据和通用 VQA，还极具前瞻性地引入 GUI 界面数据、自动驾驶深度检测数据以及大量的具身数据。通过 1.13T Token 的大规模洗礼，模型在获得语义知识的同时，隐式地掌握了物理先验（如空间关系、深度结构、物理动力学）。

Mid-Training

中期训练阶段引入了动作预测模块，数据规模约为 200M 样本。此时，混合梯度策略（知识隔离）开始生效。数据混合了跨形态的单臂/双臂机器人轨迹（如 Franka、UR5、ALOHA）、仿真环境数据以及视觉-语言指令微调数据（如 Cambrian-10M、LLaVA-OV）。为了增强模型的长程规划能力，本文还专门构建了具身推理（ER）数据集，包含任务分解、进度估计等训练项。

Post-Training

后期训练阶段旨在将模型对齐到实际部署的硬件上。使用约 50M 样本，将目标缩小至少数特定的真实机器人平台。减少不同形态机器人的分布方差，使得模型能在目标机械臂上建立极其稳定的视觉-运动映射。

实验结果：在 RoboChallenge 上的碾压级表现

为全面验证 DM0 的物理世界交互能力，DM0 在极具挑战性的 RoboChallenge 真实世界基准 Table30 上进行评估。该基准包含 30 个需要多步推理和精确连续控制的长视野桌面操作任务。

单任务（Specialist）评估

图4：DM0 具备在具身场景中预测子任务的思维链（CoT）能力

除了卓越的动作执行能力，由于实施了知识隔离，处于 Mid-Training 阶段的 DM0 依然完美保留了多模态对话能力。在具身场景的物体检测、复杂图表 OCR 识别、甚至是作为手机智能体（Mobile Agent）识别外卖按钮的任务中，它也能对答如流。

结论与未来展望

DM0 从根本上重新思考了通用机器人策略的开发路径。它证明了与其让纯语义的大语言模型在事后去适应机器人身体，不如在预训练的萌芽期，就将物理世界的感知与多源数据相融合，构建一个真正意义上的具身原生 VLA 模型；其独创的混合梯度训练保护了认知不退化，而具身空间脚手架则赋予了模型三维空间的推理直觉。

尽管 DM0 已经树立了一个强大的基准，但这仅仅是 Physical AI 迈出的一小步。论文的最后，作者团队也指出了几个极具潜力的演进方向：

具身原生的 Scaling Laws： DM0 目前依然是一个 2B 级别的轻量化模型。未来，团队计划将其扩展至 7B 甚至 30B 规模，并吞吐更为庞大的仿真+真实的混合数据集，以期观察到在物理推理层面的涌现能力。
更广阔的多模态感知：现实世界的物理交互绝不仅限于看和说。DM0 的预训练阶段未来有望直接整合触觉反馈、音频以及纯深度信息，让机器人即便在视野受限的动态环境中依然游刃有余。
长程推理与世界模型：现有的空间脚手架虽然解决了部分规划问题，但跨越超长时间维度的任务仍是业界难题。未来，若能将世界模型整合进 DM0 ，赋予机器人在脑海中预演动作后果并进行长期规划的能力，真正的全能型 Physical AI 将不再遥远。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.