网易首页 > 网易号 > 正文 申请入驻

原力灵机具身大模型DM0硬核拆解:物理AI如何迎来自己的“原生”时代

0
分享至


责编 | 梦依丹

出品丨AI 科技大本营(ID:rgznai100)

当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的“预训练-后适配”(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。


图1:DM0 在异构语料库上进行预训练——无缝整合互联网、自动驾驶和具身操作数据

为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从0开始」:从训练的最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。

作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能力。

  • 论文名称: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

  • 论文链接:https://arxiv.org/html/2602.14974v1

  • DM0 GitHub : https://github.com/Dexmal/dexbotic

  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0


方法与架构:多源混合训练与空间脚手架

真正的通用机器人需要一个具身原生模型,这要求模型必须调和异构数据源——涵盖互联网语料、自动驾驶日志以及机器人操作轨迹,学习既具有丰富语义又具备物理可执行性的表征。为此,DM0 并未采用简单的端到端多层感知机映射,而是设计了一套精妙的多源混合训练与具身空间脚手架(Embodied Spatial Scaffolding)架构。

整体模型架构


图 2:DM0 架构图,包含 VLM 主干和基于流匹配(Flow Matching)的动作专家

DM0 的核心架构由两个主要组件构成:

  1. VLM 主干网络: 基于 Qwen3-1.7B 大语言模型构建,并增加了一个强大的感知编码器 PE,负责多模态感知、语义理解以及在机器人环境中的具身推理。输入的多视角图像会被调整为 728×728 的高分辨率,经过感知编码器处理后,提取出细粒度的视觉特征。

  2. 动作专家:这是一个基于流匹配的连续控制模块。它不直接从图像提取特征,而是接收来自 VLM 主干网络提取的键值(KV)缓存作为条件输入,从而生成平滑、精确的连续控制动作。

在推理时,DM0 支持两种模式:既可以直接从多模态观察和指令中预测连续动作;也可以先通过 VLM 生成文本形式的具身推理过程,随后将这些推理文本作为条件,引导动作专家输出动作。

多源混合训练

联合优化语言目标与连续控制目标往往会破坏预训练 VLM 中保存的语义表征。为了解决这个问题,DM0 采用了一种受知识隔离(Knowledge Insulation)启发的混合梯度策略。

具体而言,在针对具身机器人数据进行训练时,动作专家的梯度不会回传给 VLM 主干网络。这种解耦操作有效防止机器人动作数据对 VLM 通用常识的侵蚀。与此同时,VLM 仍然会继续使用非具身数据进行更新,不断优化其通用语言和视觉理解能力。此外,VLM 还被监督预测离散的动作 Token,促使它编码出有利于下游连续动作预测的动作相关语义。

具身空间脚手架

为进一步弥合高级语言推理与低级动作控制之间的鸿沟,本文创新性提出一套分层预测框架——具身空间脚手架。在训练中,模型被要求顺序执行以下辅助任务,构建出空间维度的思维链(Spatial CoT):

  • 子任务预测:将复杂的总指令分解为一系列可解释、易管理的子步骤。

  • 目标边界框预测:在视觉观察中预测出目标物体或目标区域的 2D 边界框。

  • 末端执行器轨迹预测:预测机器臂末端在主摄像机视图下的未来 2D 轨迹。

  • 离散动作预测:预测代表机器人控制命令的离散 Token。

这种设计如同为模型搭建一层层脚手架,引导其从抽象的语义意图,逐步过渡到以物体为中心的空间定位,再到动作相关的几何轨迹,最终落地为底层控制。这种信息瓶颈机制不仅过滤了任务无关的噪声,还极大地限制了动作策略的解空间。


三阶段训练配方:从互联网原生走向具身原生


图3:预训练、中期训练、后期训练的数据混合比例

DM0 的强大不仅源于架构,更归功于其精心设计的三阶段训练 pipeline,总计消耗了高达 1.2T Token 的数据。预训练阶段在大规模的互联网、自动驾驶和具身数据上建立强大的多模态感知;中训练阶段加入动作预测,并在跨多种机器人平台的具身数据上把模型锚定为可执行的控制,同时保留通用对话能力;后训练阶段则收窄所使用的本体与数据范围,以便在少数目标平台上稳定视觉-运动对齐。

Pretraining

这个阶段,模型在一套极其丰富的异构语料库上进行联合优化,参数全部解冻。数据不仅包含传统的网页文本、教育文献、OCR 数据和通用 VQA,还极具前瞻性地引入 GUI 界面数据、自动驾驶深度检测数据以及大量的具身数据。通过 1.13T Token 的大规模洗礼,模型在获得语义知识的同时,隐式地掌握了物理先验(如空间关系、深度结构、物理动力学)。

Mid-Training

中期训练阶段引入了动作预测模块,数据规模约为 200M 样本。此时,混合梯度策略(知识隔离)开始生效。数据混合了跨形态的单臂/双臂机器人轨迹(如 Franka、UR5、ALOHA)、仿真环境数据以及视觉-语言指令微调数据(如 Cambrian-10M、LLaVA-OV)。为了增强模型的长程规划能力,本文还专门构建了具身推理(ER)数据集,包含任务分解、进度估计等训练项。

Post-Training

后期训练阶段旨在将模型对齐到实际部署的硬件上。使用约 50M 样本,将目标缩小至少数特定的真实机器人平台。减少不同形态机器人的分布方差,使得模型能在目标机械臂上建立极其稳定的视觉-运动映射。


实验结果:在 RoboChallenge 上的碾压级表现

为全面验证 DM0 的物理世界交互能力,DM0 在极具挑战性的 RoboChallenge 真实世界基准 Table30 上进行评估。该基准包含 30 个需要多步推理和精确连续控制的长视野桌面操作任务。

单任务(Specialist)评估


表 1:RoboChallenge Table30 上 SOTA 开源 VLA 模型的对比结果

如表 1 所示,DM0-Specialist 模型在仅有 2.4B 参数量的情况下,在 UR5、Franka、ARX5、ALOHA 等多个机器人平台上,全面超越参数量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 开源模型,取得了 62.00% 的平均成功率。

值得注意的是,在诸如“在篮子中整理水果”、“插网线”和“扫垃圾”这类长时序、强交互的复杂任务中,DM0 甚至取得了 100% 或 80% 这样接近完美的成绩,而其他基准模型在这些任务上经常彻底失败(0%)。

多任务(Generalist)评估


表 2:RoboChallenge Table30 上当前最佳的开源 VLA 多任务模型的对比结果

在更考验模型跨任务适应能力的多任务中(一个模型同时掌握某平台下的所有任务),DM0-Generalist 同样展现出压倒性优势,取得了 37.3% 的平均成功率和 49.08 的任务得分,大幅超越了之前最强的 pi0.5 模型的 17.67% 和 31.27;特别是在“堆叠彩色方块”、“将鞋子放在鞋架上”等需要高精度空间理解的任务中,DM0 依然能够打出满分。


图4:DM0 具备在具身场景中预测子任务的思维链(CoT)能力

除了卓越的动作执行能力,由于实施了知识隔离,处于 Mid-Training 阶段的 DM0 依然完美保留了多模态对话能力。在具身场景的物体检测、复杂图表 OCR 识别、甚至是作为手机智能体(Mobile Agent)识别外卖按钮的任务中,它也能对答如流。


结论与未来展望

DM0 从根本上重新思考了通用机器人策略的开发路径。它证明了与其让纯语义的大语言模型在事后去适应机器人身体,不如在预训练的萌芽期,就将物理世界的感知与多源数据相融合,构建一个真正意义上的具身原生 VLA 模型;其独创的混合梯度训练保护了认知不退化,而具身空间脚手架则赋予了模型三维空间的推理直觉。

尽管 DM0 已经树立了一个强大的基准,但这仅仅是 Physical AI 迈出的一小步。论文的最后,作者团队也指出了几个极具潜力的演进方向:

  1. 具身原生的 Scaling Laws: DM0 目前依然是一个 2B 级别的轻量化模型。未来,团队计划将其扩展至 7B 甚至 30B 规模,并吞吐更为庞大的仿真+真实的混合数据集,以期观察到在物理推理层面的涌现能力。

  2. 更广阔的多模态感知:现实世界的物理交互绝不仅限于看和说。DM0 的预训练阶段未来有望直接整合触觉反馈、音频以及纯深度信息,让机器人即便在视野受限的动态环境中依然游刃有余。

  3. 长程推理与世界模型:现有的空间脚手架虽然解决了部分规划问题,但跨越超长时间维度的任务仍是业界难题。未来,若能将世界模型整合进 DM0 ,赋予机器人在脑海中预演动作后果并进行长期规划的能力,真正的全能型 Physical AI 将不再遥远。


未来没有前后端,只有 AI Agent 工程师。

这场十倍速的变革已至,你的下一步在哪?

4 月 17-18 日,由 CSDN 与奇点智能研究院联合主办「2026 奇点智能技术大会」将在上海隆重召开,大会聚焦 Agent 系统、世界模型、AI 原生研发等 12 大前沿专题,为你绘制通往未来的认知地图。

成为时代的见证者,更要成为时代的先行者。

奇点智能技术大会上海站,我们不见不散!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比尔·盖茨婚外情人照片曝光:与俄罗斯桥牌选手首次合影出现在2010年

比尔·盖茨婚外情人照片曝光:与俄罗斯桥牌选手首次合影出现在2010年

台州交通广播
2026-02-28 00:52:28
中国男篮VS台北男篮,下午4点打响!输球排名垫底,考验郭士强了

中国男篮VS台北男篮,下午4点打响!输球排名垫底,考验郭士强了

篮球扫地僧
2026-02-28 02:29:51
34岁评上副教授,直接躺平15年!山东一教师自曝生活状态,引争议

34岁评上副教授,直接躺平15年!山东一教师自曝生活状态,引争议

火山詩话
2026-02-27 09:09:49
北京卖豆汁大爷爆火,小伙质疑里面掺粪,现场直接举报,当场带走

北京卖豆汁大爷爆火,小伙质疑里面掺粪,现场直接举报,当场带走

离离言几许
2026-02-26 16:20:55
大利空来袭!科技巨头、中国资产等跳水大跌,下周A股要凉凉了吗

大利空来袭!科技巨头、中国资产等跳水大跌,下周A股要凉凉了吗

虎哥闲聊
2026-02-28 11:58:05
成都小米SU7事故细节进一步曝光,小米汽车再陷安全争议

成都小米SU7事故细节进一步曝光,小米汽车再陷安全争议

澎湃新闻
2026-02-27 19:14:26
击落全部巡航导弹和高超音速导弹!俄军最优秀防空专家阵亡

击落全部巡航导弹和高超音速导弹!俄军最优秀防空专家阵亡

鹰眼Defence
2026-02-28 16:56:22
重大信号!A股,集体公告!最牛净利大增超745%,“寒王”战报来袭

重大信号!A股,集体公告!最牛净利大增超745%,“寒王”战报来袭

券商中国
2026-02-28 13:42:06
2.28日早评|尽快撤离!黄金大消息!下周要炸了!

2.28日早评|尽快撤离!黄金大消息!下周要炸了!

龙行天下虎
2026-02-28 09:10:39
市场监管总局:严禁打着专家旗号穿白大褂背书,严禁使用“包治百病”等误导性表述变着法子给消费者“洗脑”

市场监管总局:严禁打着专家旗号穿白大褂背书,严禁使用“包治百病”等误导性表述变着法子给消费者“洗脑”

每日经济新闻
2026-02-27 10:32:19
牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼“毛主席万岁”

牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼“毛主席万岁”

晓风洞察
2026-02-27 13:19:44
只要中国敢反制,巴拿马就动手,巴总统警告中国,后果自负

只要中国敢反制,巴拿马就动手,巴总统警告中国,后果自负

阿笎评论哥
2026-02-27 22:40:08
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

深度报
2026-02-27 21:36:50
林孝埈韩国教练冬奥会前被国家队解雇!韩媒:因为抗议刘少昂犯规

林孝埈韩国教练冬奥会前被国家队解雇!韩媒:因为抗议刘少昂犯规

念洲
2026-02-28 09:36:30
伊朗革命卫队:已向以色列发动导弹和无人机袭击

伊朗革命卫队:已向以色列发动导弹和无人机袭击

财联社
2026-02-28 16:50:10
湖南一男子杀鸭从鸭肚中剖出多颗金色颗粒,灼烧鉴定为黄金,当事人:当地河道曾采金,可能是鸭子觅食时误食

湖南一男子杀鸭从鸭肚中剖出多颗金色颗粒,灼烧鉴定为黄金,当事人:当地河道曾采金,可能是鸭子觅食时误食

扬子晚报
2026-02-27 07:34:01
甜炸了!汪小菲又偷偷偷拍马筱梅和宝宝,这一幕藏不住的幸福!

甜炸了!汪小菲又偷偷偷拍马筱梅和宝宝,这一幕藏不住的幸福!

乐悠悠娱乐
2026-02-28 15:19:07
丢脸丢到海外! 2023年,中国夫妻在日本旅游, 海滩上抓683只说要吃

丢脸丢到海外! 2023年,中国夫妻在日本旅游, 海滩上抓683只说要吃

万象硬核本尊
2026-02-27 18:28:04
国家出手,反诈老陈彻底凉凉!网友再曝猛料,不止搞对立这么简单

国家出手,反诈老陈彻底凉凉!网友再曝猛料,不止搞对立这么简单

云舟史策
2026-02-28 14:22:50
双体制内父母崩溃,赴英读博的独子,竟是英国史上最危险罪犯

双体制内父母崩溃,赴英读博的独子,竟是英国史上最危险罪犯

云舟史策
2026-02-28 09:56:15
2026-02-28 17:23:00
AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2634文章数 7646关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

内塔尼亚胡:美以军事行动目标是推翻伊朗政权

头条要闻

内塔尼亚胡:美以军事行动目标是推翻伊朗政权

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
教育
游戏
数码
军事航空

本地新闻

津南好·四时总相宜

教育要闻

我给两会捎句话丨刚性保障中小学每天一节体育课

《星际战甲》Switch2版来了!官方定档3月25日

数码要闻

联想“ThinkBook 模块化 AI PC”概念机将亮相 MWC

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版