网易首页 > 网易号 > 正文 申请入驻

ABot-M0:阿里高德CV Lab发布机器人操作VLA基座模型,以动作流形学习破局具身智能

0
分享至


ABot-M0:阿里高德CV Lab发布机器人操作VLA基座模型,以动作流形学习破局具身智能 ABot-M0:阿里高德CV Lab发布机器人操作VLA基座模型,以动作流形学习破局具身智能

导读

具身智能的终极愿景是创造能够“一个大脑,驱动万千形态”的通用智能体。然而,长期以来,异构数据壁垒、硬件形态鸿沟与模型训练范式错位等挑战,使得这一目标遥不可及。近日,高德地图CV Lab团队重磅发布ABot-M0,一套面向机器人操作的视觉-语言-动作(VLA)基座模型框架。该工作不仅开源了目前非私有领域规模最大的机器人操作数据集,更创新性地提出了“动作流形学习”范式,为构建高性能、强泛化的通用机器人智能体提供了一套完整、开源、可复现的系统性解决方案。

AMAP CV Lab, Alibaba Group

论文:https://arxiv.org/abs/2602.11236

代码:https://github.com/amap-cvlab/ABot-Manipulation

项目主页:https://amap-cvlab.github.io/ABot-Manipulatio

一、行业现状与挑战:具身智能的“巴别塔困境”

近年来,随着大语言模型(LLM)的突破,将其强大的推理和泛化能力迁移至机器人领域的视觉-语言-动作(VLA)模型成为学术界和工业界的热点。VLA模型旨在让机器人像人一样,通过观察视觉世界和理解自然语言指令来执行物理操作。

然而,通往通用具身智能的道路并非坦途,研究者们普遍面临着“巴别塔困境”:

数据孤岛(Data Fragmentation): 全球各实验室使用着不同品牌、不同结构的机器人,采集的数据在动作表征、控制频率、坐标系定义上千差万别。这些异构数据如同一座座“巴别塔”,难以整合,阻碍了模型从海量经验中学习通用规律。

形态鸿沟(Embodiment Gap): 为特定机器人训练的策略,往往无法直接应用于另一种形态的机器人。这种“一脑一用”的模式极大地限制了模型的泛化性,距离“一个大脑,多种形态”(One-Brain, Many-Forms)的理想相去甚远。

学习范式错位(Learning Paradigm Mismatch): 许多主流生成模型(如扩散模型)通过预测高维随机噪声来生成动作,这一过程对于结构性强、物理约束明确的机器人动作而言,不仅学习效率低下,且生成的动作序列容易出现抖动和不稳定。

为系统性地攻克上述难题,我们提出了ABot-M0框架。

model

▲ ABot-M0 框架概览:一套集数据、模型、训练于一体的系统化解决方案

二、ABot-M0:一套系统性的开源解决方案

ABot-M0并非单一模型,而是一套“三位一体”的完整技术栈,从根源上解决了从异构原始数据到统一高效模型策略的端到端问题。

**统一的数据基石 (UniACT-dataset)**:通过系统化的数据治理,整合并标准化了全球主流的公开操作数据集,构建了目前非私有领域内规模最大的机器人操作数据集。

**创新的学习范式 (Action Manifold Learning)**:提出“动作流形假说”,并设计了全新的动作流形学习(AML)机制,颠覆了传统扩散模型的学习目标,显著提升了学习效率和策略稳定性。

**灵活的感知架构 (Modular Perception)**:采用VLM与3D几何感知的双流设计,兼顾了模型的语义理解泛化性与空间操作精确性,且无需修改骨干网络。

三、技术核心详解 1. UniACT-dataset:构建跨形态、大规模的统一数据基石

我们坚信,高质量、大规模、标准化的数据是具身智能的“第一性原理”。为此,我们构建了UniACT-dataset


▲ UniACT-dataset 数据处理流水线

前所未有的规模与广度:整合了包括 OXE, OXE-AugE, AgiBot-Beta, RoboCoin, RoboMind, Galaxea 在内的6个主流开源数据集,总计超过600万条轨迹9500小时的交互数据。

严谨的标准化流程

统一动作表征:所有动作被转换为以末端执行器(EEF)为中心的增量动作(Delta Actions),其中旋转部分采用更具连续性和稳定性的旋转向量(Rotation Vectors)。这套表征体系有效抹平了不同机器人(embodiment)在运动学上的差异。

统一任务范式:创新性地采用“填充至双臂”(Pad-to-Dual-Arm)策略,通过零填充将单臂任务扩展为双臂格式,使得单一模型能够无缝处理单/双臂协同任务,极大增强了模型的通用性。

2. 动作流形学习 (AML):颠覆传统范式的高效动作生成

传统扩散模型学习预测高维、无结构的噪声(ε-prediction),其学习目标与物理世界中高度结构化的机器人动作之间存在巨大鸿沟。

我们提出“动作流形假说”(Action Manifold Hypothesis):有效的机器人动作序列并非随机散布于高维空间,而是栖居于一个由物理定律、任务约束和环境交互共同决定的低维、光滑的流形上。


▲ 动作流形学习 (AML) vs. 传统噪声预测 (ε-prediction)

基于此,我们设计了动作流形学习(AML)

革新学习目标:模型不再预测噪声,而是直接预测“干净”的动作序列(a-prediction)。学习过程从漫无目的的“去噪”转变为高效的“向可行流形投影”,使得学习目标更明确、收敛更迅速。

提升效率与稳定性:结合DiT (Diffusion Transformer)架构,AML不仅显著加快了推理速度,更重要的是,通过约束输出空间,生成了更平滑、更符合物理规律的动作策略。这对于处理长序列、高维度(如双臂、灵巧手)任务展现出巨大潜力。

3. 双流感知与两阶段训练:兼顾泛化与精度

双流感知融合

VLM语义流:以Qwen3-VL为骨干,赋予模型强大的场景理解与指令解析能力,是模型泛化性的基础。

3D几何流:通过即插即用(Plug-and-Play)的3D模块(如利用VGGT提取单目3D特征,或利用Qwen-Image-Edit合成新视角特征),为模型注入精确的空间几何先验,弥补标准VLM在精细3D定位上的不足。

两阶段训练策略

阶段一:大规模预训练:在UniACT-dataset上进行训练,使模型学习到跨任务、跨形态的通用动作先验。

阶段二:监督微调(SFT):在特定下游任务上进行微调,注入领域特定的精细空间知识,从而在保证泛化性的同时,大幅提升在高精度任务(如穿针引线、叠衣服)上的表现。

四、实验效果:SOTA性能与卓越泛化力

实践是检验真理的唯一标准。我们在多个业界公认的仿真基准上对ABot-M0进行了全面评估,结果证明了其卓越性能。

LIBERO & LIBERO-Plus:在考验长程任务能力的LIBERO基准上,ABot-M0 取得了98.6%的平均成功率。在更具挑战性的零样本泛化测试集LIBERO-Plus上,成功率高达 **80.5%**,显著优于OpenVLA-OFT等前沿模型,展现了强大的跨任务泛化能力。



RoboCasa & RoboTwin 2.0:在复杂的双臂协同操作基准RoboCasa GR1上,ABot-M0 达到了58.3%的成功率,验证了AML范式在处理高维动作空间(29维)时的优越性。在多任务泛化基准RoboTwin 2.0上,即使在场景随机化的情况下,ABot-M0 仍能达到81.2%的成功率。在GitHub主页已经更新RoboTwin 2.086.1的成功率。



ABot-M0在具身VLA公共榜单直接两项第一:https://sota.evomind-tech.com/


五、总结与展望

ABot-M0的核心贡献不仅在于一个高性能的VLA模型,更在于提供了一套从数据到模型、从架构到训练的完整、开源的系统化解决方案

我们的工作有力地证明:即便不依赖任何私有数据和定制硬件,仅仅通过对公开资源的深度整合与系统性工程化,同样可以构建出性能顶尖、泛化能力卓越的通用机器人智能体。

同时ABot的FAST预训练权重可以作为starVLA的各个模型的初始化,进一步为开源贡献。

我们希望ABot-M0能够成为社区的研究基石,赋能更多研究者,共同推动具身智能技术的发展,早日实现“一个大脑,驱动万千形态”的宏伟蓝图。

Mbot具身智能实验室

让尖端科技触手可及,人人皆可探索未来


Mbot基础交流群等你加入,下方扫码联系


具身-杰西

Mbot具身-小助手

Mbot-视频号

Mbot-公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真相来了!浓眉亲承:因为锡安我才去了湖人,如果选莫兰特绝不走

真相来了!浓眉亲承:因为锡安我才去了湖人,如果选莫兰特绝不走

夜白侃球
2026-04-10 14:41:02
樊振东不是自愿弃赛的!3大隐情曝光,王皓回应引猜测,热议不断

樊振东不是自愿弃赛的!3大隐情曝光,王皓回应引猜测,热议不断

荣亭小吏
2026-04-10 15:03:48
绿营将“追杀”郑丽文,爆料称高层交代不放过一人,直到达成目的

绿营将“追杀”郑丽文,爆料称高层交代不放过一人,直到达成目的

谛听骨语本尊
2026-04-10 18:30:15
完整导弹生产线转让中国,三次相助引美俄羡慕

完整导弹生产线转让中国,三次相助引美俄羡慕

郭长包工头
2026-04-09 16:28:43
设计院的工资已经恐怖如斯?

设计院的工资已经恐怖如斯?

黯泉
2026-04-10 18:46:11
人山人海!常州接住了泼天流量…

人山人海!常州接住了泼天流量…

常州大喇叭
2026-04-11 15:45:05
随着长春亚泰2-1,深圳青年人3-0,中甲最新积分榜出炉

随着长春亚泰2-1,深圳青年人3-0,中甲最新积分榜出炉

凌空倒钩
2026-04-11 17:52:00
Type-C 接口最大的问题,是看起来已经「统一」了

Type-C 接口最大的问题,是看起来已经「统一」了

少数派sspai
2026-04-10 12:11:49
人都死了,才罚7.6万?越看越不对劲

人都死了,才罚7.6万?越看越不对劲

走读新生
2026-04-09 15:37:03
刺激!深圳有人年初买房已经赚了100万!

刺激!深圳有人年初买房已经赚了100万!

楼市灭霸
2026-04-10 13:27:25
我们并没有用40年走完发达国家200年的路

我们并没有用40年走完发达国家200年的路

文青大叔说
2026-03-13 08:13:38
4月10日俄乌最新:万斯再开黄腔

4月10日俄乌最新:万斯再开黄腔

西楼饮月
2026-04-10 16:09:59
日本降级对华关系,称中方欠日本两笔账,中方回了一句大白话

日本降级对华关系,称中方欠日本两笔账,中方回了一句大白话

一口娱乐
2026-04-11 18:27:31
到高中,你会发现:去了普通高中,基本就跟985、211没什么关系了

到高中,你会发现:去了普通高中,基本就跟985、211没什么关系了

好爸育儿
2026-02-03 17:51:04
武警部队原副政委蒋金锵将军逝世,享年91岁

武警部队原副政委蒋金锵将军逝世,享年91岁

澎湃新闻
2026-04-11 15:26:26
为了对抗中国车企的极致效率,丰田不再为“看不见的完美”买单

为了对抗中国车企的极致效率,丰田不再为“看不见的完美”买单

澎湃新闻
2026-04-10 19:34:06
4-0!西汉姆联赢下保级生死战+主场5轮不败 正式将热刺送入降级区

4-0!西汉姆联赢下保级生死战+主场5轮不败 正式将热刺送入降级区

我爱英超
2026-04-11 06:18:56
70岁后,这两个地方别去,不是迷信,是实在话

70岁后,这两个地方别去,不是迷信,是实在话

宝哥精彩赛事
2026-04-11 18:04:46
“桎梏”不要再读 zhì kù,或 zhì gào,丢不起那个人!

“桎梏”不要再读 zhì kù,或 zhì gào,丢不起那个人!

未央看点
2026-04-10 00:09:02
奉劝退休金高的老年人:回农村养老时,尽量装穷把退休金说少一点

奉劝退休金高的老年人:回农村养老时,尽量装穷把退休金说少一点

小马达情感故事
2026-04-11 19:25:03
2026-04-11 20:39:00
杰西讲具身 incentive-icons
杰西讲具身
一名分享AI前沿的分享官,专注具身智能前沿知识
25文章数 1关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

美国否认同意解冻伊朗资产 巴官员:美方急了 伊朗不急

头条要闻

美国否认同意解冻伊朗资产 巴官员:美方急了 伊朗不急

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
房产
家居
教育
数码

艺术要闻

从1984到2024,9届全国美展油画最高奖作品

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

家居要闻

复古风格 自然简约

教育要闻

教育部6年来首次官宣出境留学人数!中国境外留学缩水倒退10年?

数码要闻

夏天神器来了!徕芬首款折叠小风扇官宣 轻松装入口袋

无障碍浏览 进入关怀版