网易首页 > 网易号 > 正文 申请入驻

具身大模型DM0硬核拆解:物理AI如何迎来自己的“原生”时代

0
分享至

责编 | 梦依丹

出品丨AI 科技大本营(ID:rgznai100)

当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的“预训练-后适配”(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。


图1:DM0 在异构语料库上进行预训练——无缝整合互联网、自动驾驶

为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从0开始」:从训练的最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。

作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能力。

  • 论文名称: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
  • 论文链接:https://arxiv.org/html/2602.14974v1
  • DM0 GitHub : https://github.com/Dexmal/dexbotic
  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0

方法与架构:多源混合训练与空间脚手架

真正的通用机器人需要一个具身原生模型,这要求模型必须调和异构数据源——涵盖互联网语料、自动驾驶日志以及机器人操作轨迹,学习既具有丰富语义又具备物理可执行性的表征。为此,DM0 并未采用简单的端到端多层感知机映射,而是设计了一套精妙的多源混合训练与具身空间脚手架(Embodied Spatial Scaffolding)架构。

整体模型架构


图 2:DM0 架构图,包含 VLM 主干和基于流匹配(Flow Matching)

DM0 的核心架构由两个主要组件构成:

  1. VLM 主干网络: 基于 Qwen3-1.7B 大语言模型构建,并增加了一个强大的感知编码器 PE,负责多模态感知、语义理解以及在机器人环境中的具身推理。输入的多视角图像会被调整为 728×728 的高分辨率,经过感知编码器处理后,提取出细粒度的视觉特征。
  2. 动作专家:这是一个基于流匹配的连续控制模块。它不直接从图像提取特征,而是接收来自 VLM 主干网络提取的键值(KV)缓存作为条件输入,从而生成平滑、精确的连续控制动作。

在推理时,DM0 支持两种模式:既可以直接从多模态观察和指令中预测连续动作;也可以先通过 VLM 生成文本形式的具身推理过程,随后将这些推理文本作为条件,引导动作专家输出动作。

多源混合训练

联合优化语言目标与连续控制目标往往会破坏预训练 VLM 中保存的语义表征。为了解决这个问题,DM0 采用了一种受知识隔离(Knowledge Insulation)启发的混合梯度策略。

具体而言,在针对具身机器人数据进行训练时,动作专家的梯度不会回传给 VLM 主干网络。这种解耦操作有效防止机器人动作数据对 VLM 通用常识的侵蚀。与此同时,VLM 仍然会继续使用非具身数据进行更新,不断优化其通用语言和视觉理解能力。此外,VLM 还被监督预测离散的动作 Token,促使它编码出有利于下游连续动作预测的动作相关语义。

具身空间脚手架

为进一步弥合高级语言推理与低级动作控制之间的鸿沟,本文创新性提出一套分层预测框架——具身空间脚手架。在训练中,模型被要求顺序执行以下辅助任务,构建出空间维度的思维链(Spatial CoT):

  • 子任务预测:将复杂的总指令分解为一系列可解释、易管理的子步骤。
  • 目标边界框预测:在视觉观察中预测出目标物体或目标区域的 2D 边界框。
  • 末端执行器轨迹预测:预测机器臂末端在主摄像机视图下的未来 2D 轨迹。
  • 离散动作预测:预测代表机器人控制命令的离散 Token。

这种设计如同为模型搭建一层层脚手架,引导其从抽象的语义意图,逐步过渡到以物体为中心的空间定位,再到动作相关的几何轨迹,最终落地为底层控制。这种信息瓶颈机制不仅过滤了任务无关的噪声,还极大地限制了动作策略的解空间。

三阶段训练配方:从互联网原生走向具身原生


图3:预训练、中期训练、后期训练的数据混合比例


DM0 的强大不仅源于架构,更归功于其精心设计的三阶段训练 pipeline,总计消耗了高达 1.2T Token 的数据。预训练阶段在大规模的互联网、自动驾驶和具身数据上建立强大的多模态感知;中训练阶段加入动作预测,并在跨多种机器人平台的具身数据上把模型锚定为可执行的控制,同时保留通用对话能力;后训练阶段则收窄所使用的本体与数据范围,以便在少数目标平台上稳定视觉-运动对齐。

Pretraining

这个阶段,模型在一套极其丰富的异构语料库上进行联合优化,参数全部解冻。数据不仅包含传统的网页文本、教育文献、OCR 数据和通用 VQA,还极具前瞻性地引入 GUI 界面数据、自动驾驶深度检测数据以及大量的具身数据。通过 1.13T Token 的大规模洗礼,模型在获得语义知识的同时,隐式地掌握了物理先验(如空间关系、深度结构、物理动力学)。

Mid-Training

中期训练阶段引入了动作预测模块,数据规模约为 200M 样本。此时,混合梯度策略(知识隔离)开始生效。数据混合了跨形态的单臂/双臂机器人轨迹(如 Franka、UR5、ALOHA)、仿真环境数据以及视觉-语言指令微调数据(如 Cambrian-10M、LLaVA-OV)。为了增强模型的长程规划能力,本文还专门构建了具身推理(ER)数据集,包含任务分解、进度估计等训练项。

Post-Training

后期训练阶段旨在将模型对齐到实际部署的硬件上。使用约 50M 样本,将目标缩小至少数特定的真实机器人平台。减少不同形态机器人的分布方差,使得模型能在目标机械臂上建立极其稳定的视觉-运动映射。

实验结果:在 RoboChallenge 上的碾压级表现

为全面验证 DM0 的物理世界交互能力,DM0 在极具挑战性的 RoboChallenge 真实世界基准 Table30 上进行评估。该基准包含 30 个需要多步推理和精确连续控制的长视野桌面操作任务。

单任务(Specialist)评估


图4:DM0 具备在具身场景中预测子任务的思维链(CoT)能力

除了卓越的动作执行能力,由于实施了知识隔离,处于 Mid-Training 阶段的 DM0 依然完美保留了多模态对话能力。在具身场景的物体检测、复杂图表 OCR 识别、甚至是作为手机智能体(Mobile Agent)识别外卖按钮的任务中,它也能对答如流。

结论与未来展望

DM0 从根本上重新思考了通用机器人策略的开发路径。它证明了与其让纯语义的大语言模型在事后去适应机器人身体,不如在预训练的萌芽期,就将物理世界的感知与多源数据相融合,构建一个真正意义上的具身原生 VLA 模型;其独创的混合梯度训练保护了认知不退化,而具身空间脚手架则赋予了模型三维空间的推理直觉。

尽管 DM0 已经树立了一个强大的基准,但这仅仅是 Physical AI 迈出的一小步。论文的最后,作者团队也指出了几个极具潜力的演进方向:

  1. 具身原生的 Scaling Laws: DM0 目前依然是一个 2B 级别的轻量化模型。未来,团队计划将其扩展至 7B 甚至 30B 规模,并吞吐更为庞大的仿真+真实的混合数据集,以期观察到在物理推理层面的涌现能力。
  2. 更广阔的多模态感知:现实世界的物理交互绝不仅限于看和说。DM0 的预训练阶段未来有望直接整合触觉反馈、音频以及纯深度信息,让机器人即便在视野受限的动态环境中依然游刃有余。
  3. 长程推理与世界模型:现有的空间脚手架虽然解决了部分规划问题,但跨越超长时间维度的任务仍是业界难题。未来,若能将世界模型整合进 DM0 ,赋予机器人在脑海中预演动作后果并进行长期规划的能力,真正的全能型 Physical AI 将不再遥远。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
极狐全新阿尔法S5,预售开启智驾轿跑的年轻答案

极狐全新阿尔法S5,预售开启智驾轿跑的年轻答案

智能新世界
2026-03-01 18:00:32
“德黑兰几乎所有道路摄像头都被以色列黑了”

“德黑兰几乎所有道路摄像头都被以色列黑了”

观察者网
2026-03-03 22:30:10
3月1日,严查开始!在职退休,一查到底,无一幸免

3月1日,严查开始!在职退休,一查到底,无一幸免

混沌录
2026-03-03 21:17:12
美国战机被击落,飞行员随身携带“血符”曝光:帮我联系美国,你将会有奖金

美国战机被击落,飞行员随身携带“血符”曝光:帮我联系美国,你将会有奖金

不掉线电波
2026-03-03 15:46:11
美以与伊朗互相打击态势图一览

美以与伊朗互相打击态势图一览

网易新闻出品
2026-03-03 17:19:44
员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

闪电新闻
2026-03-03 17:36:04
海澜之家回应被暂停全军采购资格

海澜之家回应被暂停全军采购资格

中国能源网
2026-03-03 18:28:04
全球最大战舰——伊朗海军马卡兰号被击沉,怎么这又是港内沉没?

全球最大战舰——伊朗海军马卡兰号被击沉,怎么这又是港内沉没?

啸鹰评
2026-03-03 18:02:05
内卷之风吹到水果罐头!有厂家设计玻璃把手并赠滤网,可当茶杯用

内卷之风吹到水果罐头!有厂家设计玻璃把手并赠滤网,可当茶杯用

火山詩话
2026-03-03 06:00:32
讲真丨美国著名导演昆汀在以色列死于伊朗空袭?

讲真丨美国著名导演昆汀在以色列死于伊朗空袭?

草莓解说体育
2026-03-03 23:09:48
邮报:C罗的私人飞机已经离开利雅得,目前已抵达马德里

邮报:C罗的私人飞机已经离开利雅得,目前已抵达马德里

懂球帝
2026-03-03 16:38:17
3月1日起全国执行!这些费用全取消,家家都能省!

3月1日起全国执行!这些费用全取消,家家都能省!

达文西看世界
2026-03-02 15:40:41
特朗普这句话,吓坏了市场

特朗普这句话,吓坏了市场

刘晓博说楼市
2026-03-03 16:36:58
最近广东街头大量出现!官方提醒→

最近广东街头大量出现!官方提醒→

广东发布
2026-03-03 21:09:04
迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

冷紫葉
2026-03-03 17:14:32
“160万江景房里最窒息的一幕”,炸出了多少心穷的中国家长

“160万江景房里最窒息的一幕”,炸出了多少心穷的中国家长

小椰子专栏
2026-03-03 13:02:56
伊朗名将:战争很不幸但支持美国以色列!欢迎他们解放伊朗人民

伊朗名将:战争很不幸但支持美国以色列!欢迎他们解放伊朗人民

念洲
2026-03-03 08:44:39
父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

健康之光
2026-03-03 17:35:03
特朗普“不惜一切”!全球股债齐崩

特朗普“不惜一切”!全球股债齐崩

华尔街见闻官方
2026-03-03 16:14:11
黄金白银断崖跳水

黄金白银断崖跳水

每日经济新闻
2026-03-03 20:06:15
2026-03-04 02:16:49
CSDN incentive-icons
CSDN
成就一亿技术人
26353文章数 242237关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

游戏
家居
亲子
公开课
军事航空

魔兽时光服:角色不平衡,玩家奇思妙想该数值,这个方法可行吗?

家居要闻

万物互联 享科技福祉

亲子要闻

宝妈怀抱五个月大婴儿站在扶梯上,突然背后滑下一辆玩具车,被铲倒后孩子脱手飞出头部多处受伤!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:击中美空军基地大楼

无障碍浏览 进入关怀版