ABot-M0:阿里高德CV Lab发布机器人操作VLA基座模型,以动作流形学习破局具身智能 ABot-M0:阿里高德CV Lab发布机器人操作VLA基座模型,以动作流形学习破局具身智能
导读
具身智能的终极愿景是创造能够“一个大脑,驱动万千形态”的通用智能体。然而,长期以来,异构数据壁垒、硬件形态鸿沟与模型训练范式错位等挑战,使得这一目标遥不可及。近日,高德地图CV Lab团队重磅发布ABot-M0,一套面向机器人操作的视觉-语言-动作(VLA)基座模型框架。该工作不仅开源了目前非私有领域规模最大的机器人操作数据集,更创新性地提出了“动作流形学习”范式,为构建高性能、强泛化的通用机器人智能体提供了一套完整、开源、可复现的系统性解决方案。
AMAP CV Lab, Alibaba Group
论文:https://arxiv.org/abs/2602.11236
代码:https://github.com/amap-cvlab/ABot-Manipulation
项目主页:https://amap-cvlab.github.io/ABot-Manipulatio
一、行业现状与挑战:具身智能的“巴别塔困境”
近年来,随着大语言模型(LLM)的突破,将其强大的推理和泛化能力迁移至机器人领域的视觉-语言-动作(VLA)模型成为学术界和工业界的热点。VLA模型旨在让机器人像人一样,通过观察视觉世界和理解自然语言指令来执行物理操作。
然而,通往通用具身智能的道路并非坦途,研究者们普遍面临着“巴别塔困境”:
数据孤岛(Data Fragmentation): 全球各实验室使用着不同品牌、不同结构的机器人,采集的数据在动作表征、控制频率、坐标系定义上千差万别。这些异构数据如同一座座“巴别塔”,难以整合,阻碍了模型从海量经验中学习通用规律。
形态鸿沟(Embodiment Gap): 为特定机器人训练的策略,往往无法直接应用于另一种形态的机器人。这种“一脑一用”的模式极大地限制了模型的泛化性,距离“一个大脑,多种形态”(One-Brain, Many-Forms)的理想相去甚远。
学习范式错位(Learning Paradigm Mismatch): 许多主流生成模型(如扩散模型)通过预测高维随机噪声来生成动作,这一过程对于结构性强、物理约束明确的机器人动作而言,不仅学习效率低下,且生成的动作序列容易出现抖动和不稳定。
为系统性地攻克上述难题,我们提出了ABot-M0框架。
model
▲ ABot-M0 框架概览:一套集数据、模型、训练于一体的系统化解决方案
二、ABot-M0:一套系统性的开源解决方案
ABot-M0并非单一模型,而是一套“三位一体”的完整技术栈,从根源上解决了从异构原始数据到统一高效模型策略的端到端问题。
**统一的数据基石 (UniACT-dataset)**:通过系统化的数据治理,整合并标准化了全球主流的公开操作数据集,构建了目前非私有领域内规模最大的机器人操作数据集。
**创新的学习范式 (Action Manifold Learning)**:提出“动作流形假说”,并设计了全新的动作流形学习(AML)机制,颠覆了传统扩散模型的学习目标,显著提升了学习效率和策略稳定性。
**灵活的感知架构 (Modular Perception)**:采用VLM与3D几何感知的双流设计,兼顾了模型的语义理解泛化性与空间操作精确性,且无需修改骨干网络。
三、技术核心详解 1. UniACT-dataset:构建跨形态、大规模的统一数据基石
我们坚信,高质量、大规模、标准化的数据是具身智能的“第一性原理”。为此,我们构建了UniACT-dataset。
![]()
▲ UniACT-dataset 数据处理流水线
前所未有的规模与广度:整合了包括 OXE, OXE-AugE, AgiBot-Beta, RoboCoin, RoboMind, Galaxea 在内的6个主流开源数据集,总计超过600万条轨迹和9500小时的交互数据。
严谨的标准化流程:
统一动作表征:所有动作被转换为以末端执行器(EEF)为中心的增量动作(Delta Actions),其中旋转部分采用更具连续性和稳定性的旋转向量(Rotation Vectors)。这套表征体系有效抹平了不同机器人(embodiment)在运动学上的差异。
统一任务范式:创新性地采用“填充至双臂”(Pad-to-Dual-Arm)策略,通过零填充将单臂任务扩展为双臂格式,使得单一模型能够无缝处理单/双臂协同任务,极大增强了模型的通用性。
2. 动作流形学习 (AML):颠覆传统范式的高效动作生成
传统扩散模型学习预测高维、无结构的噪声(ε-prediction),其学习目标与物理世界中高度结构化的机器人动作之间存在巨大鸿沟。
我们提出“动作流形假说”(Action Manifold Hypothesis):有效的机器人动作序列并非随机散布于高维空间,而是栖居于一个由物理定律、任务约束和环境交互共同决定的低维、光滑的流形上。
![]()
▲ 动作流形学习 (AML) vs. 传统噪声预测 (ε-prediction)
基于此,我们设计了动作流形学习(AML):
革新学习目标:模型不再预测噪声,而是直接预测“干净”的动作序列(a-prediction)。学习过程从漫无目的的“去噪”转变为高效的“向可行流形投影”,使得学习目标更明确、收敛更迅速。
提升效率与稳定性:结合DiT (Diffusion Transformer)架构,AML不仅显著加快了推理速度,更重要的是,通过约束输出空间,生成了更平滑、更符合物理规律的动作策略。这对于处理长序列、高维度(如双臂、灵巧手)任务展现出巨大潜力。
3. 双流感知与两阶段训练:兼顾泛化与精度
双流感知融合:
VLM语义流:以Qwen3-VL为骨干,赋予模型强大的场景理解与指令解析能力,是模型泛化性的基础。
3D几何流:通过即插即用(Plug-and-Play)的3D模块(如利用VGGT提取单目3D特征,或利用Qwen-Image-Edit合成新视角特征),为模型注入精确的空间几何先验,弥补标准VLM在精细3D定位上的不足。
两阶段训练策略:
阶段一:大规模预训练:在UniACT-dataset上进行训练,使模型学习到跨任务、跨形态的通用动作先验。
阶段二:监督微调(SFT):在特定下游任务上进行微调,注入领域特定的精细空间知识,从而在保证泛化性的同时,大幅提升在高精度任务(如穿针引线、叠衣服)上的表现。
四、实验效果:SOTA性能与卓越泛化力
实践是检验真理的唯一标准。我们在多个业界公认的仿真基准上对ABot-M0进行了全面评估,结果证明了其卓越性能。
LIBERO & LIBERO-Plus:在考验长程任务能力的LIBERO基准上,ABot-M0 取得了98.6%的平均成功率。在更具挑战性的零样本泛化测试集LIBERO-Plus上,成功率高达 **80.5%**,显著优于OpenVLA-OFT等前沿模型,展现了强大的跨任务泛化能力。
![]()
![]()
RoboCasa & RoboTwin 2.0:在复杂的双臂协同操作基准RoboCasa GR1上,ABot-M0 达到了58.3%的成功率,验证了AML范式在处理高维动作空间(29维)时的优越性。在多任务泛化基准RoboTwin 2.0上,即使在场景随机化的情况下,ABot-M0 仍能达到81.2%的成功率。在GitHub主页已经更新RoboTwin 2.0为86.1的成功率。
![]()
![]()
ABot-M0在具身VLA公共榜单直接两项第一:https://sota.evomind-tech.com/
![]()
五、总结与展望
ABot-M0的核心贡献不仅在于一个高性能的VLA模型,更在于提供了一套从数据到模型、从架构到训练的完整、开源的系统化解决方案。
我们的工作有力地证明:即便不依赖任何私有数据和定制硬件,仅仅通过对公开资源的深度整合与系统性工程化,同样可以构建出性能顶尖、泛化能力卓越的通用机器人智能体。
同时ABot的FAST预训练权重可以作为starVLA的各个模型的初始化,进一步为开源贡献。
我们希望ABot-M0能够成为社区的研究基石,赋能更多研究者,共同推动具身智能技术的发展,早日实现“一个大脑,驱动万千形态”的宏伟蓝图。
Mbot具身智能实验室
让尖端科技触手可及,人人皆可探索未来
![]()
Mbot基础交流群等你加入,下方扫码联系
![]()
具身-杰西
Mbot具身-小助手
Mbot-视频号
Mbot-公众号
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.