网易首页 > 网易号 > 正文 申请入驻

阿里高德CV Lab发布ABot-M0:基于动作流形学习的机器人操作VLA基础模型

0
分享至

具身智能的终极愿景是创造能够 “一个大脑,驱动万千形态” 的通用智能体。然而,长期以来,异构数据壁垒、硬件形态鸿沟与模型训练范式错位等挑战,使得这一目标遥不可及。近日,高德地图 CV Lab 团队重磅发布 ABot-M0,一套面向机器人操作的视觉-语言-动作(VLA)基座模型框架。该工作不仅开源了目前非私有领域规模最大的机器人操作数据集,更创新性地提出了“动作流形学习”范式,为构建高性能、强泛化的通用机器人智能体提供了一套完整、开源、可复现的系统性解决方案。


论文标题: ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning 论文链接: https://arxiv.org/abs/2602.11236 代码链接: https://github.com/amap-cvlab/ABot-Manipulation 项目主页: https://amap-cvlab.github.io/ABot-Manipulation

一、行业现状与挑战:具身智能的“巴别塔困境”

近年来,随着大语言模型(LLM)的突破,将其强大的推理和泛化能力迁移至机器人领域的视觉-语言-动作(VLA)模型成为学术界和工业界的热点。VLA模型旨在让机器人像人一样,通过观察视觉世界和理解自然语言指令来执行物理操作。

然而,通往通用具身智能的道路并非坦途,研究者们普遍面临着“巴别塔困境”:

  1. 数据孤岛(Data Fragmentation): 全球各实验室使用着不同品牌、不同结构的机器人,采集的数据在动作表征、控制频率、坐标系定义上千差万别。这些异构数据如同一座座“巴别塔”,难以整合,阻碍了模型从海量经验中学习通用规律。

  2. 形态鸿沟(Embodiment Gap): 为特定机器人训练的策略,往往无法直接应用于另一种形态的机器人。这种“一脑一用”的模式极大地限制了模型的泛化性,距离“一个大脑,多种形态”(One-Brain, Many-Forms)的理想相去甚远。

  3. 学习范式错位(Learning Paradigm Mismatch): 许多主流生成模型(如扩散模型)通过预测高维随机噪声来生成动作,这一过程对于结构性强、物理约束明确的机器人动作而言,不仅学习效率低下,且生成的动作序列容易出现抖动和不稳定。

为系统性地攻克上述难题,我们提出了ABot-M0框架。


ABot-M0 框架概览:一套集数据、模型、训练于一体的系统化解决方案 二、ABot-M0:一套系统性的开源解决方案

ABot-M0并非单一模型,而是一套“三位一体”的完整技术栈,从根源上解决了从异构原始数据到统一高效模型策略的端到端问题。

  • 统一的数据基石 (UniACT-dataset):通过系统化的数据治理,整合并标准化了全球主流的公开操作数据集,构建了目前非私有领域内规模最大的机器人操作数据集。

  • 创新的学习范式 (Action Manifold Learning):提出“动作流形假说”,并设计了全新的动作流形学习(AML)机制,颠覆了传统扩散模型的学习目标,显著提升了学习效率和策略稳定性。

  • 灵活的感知架构 (Modular Perception):采用VLM与3D几何感知的双流设计,兼顾了模型的语义理解泛化性与空间操作精确性,且无需修改骨干网络。

三、技术核心详解 3.1 UniACT-dataset:构建跨形态、大规模的统一数据基石

我们坚信,高质量、大规模、标准化的数据是具身智能的“第一性原理”。为此,我们构建了UniACT-dataset


UniACT-dataset 数据处理流水线

  • 前所未有的规模与广度:整合了包括OXE,OXE-AugE,AgiBot-Beta,RoboCoin,RoboMind,Galaxea在内的6个主流开源数据集,总计超过600万条轨迹9500小时的交互数据。

  • 严谨的标准化流程

    • 统一动作表征:所有动作被转换为以末端执行器(EEF)为中心的增量动作(Delta Actions),其中旋转部分采用更具连续性和稳定性的旋转向量(Rotation Vectors)。这套表征体系有效抹平了不同机器人(embodiment)在运动学上的差异。

    • 统一任务范式:创新性地采用“填充至双臂”(Pad-to-Dual-Arm)策略,通过零填充将单臂任务扩展为双臂格式,使得单一模型能够无缝处理单/双臂协同任务,极大增强了模型的通用性。

3.2 动作流形学习 (AML):颠覆传统范式的高效动作生成

传统扩散模型学习预测高维、无结构的噪声(ε-prediction),其学习目标与物理世界中高度结构化的机器人动作之间存在巨大鸿沟。

我们提出“动作流形假说”(Action Manifold Hypothesis):有效的机器人动作序列并非随机散布于高维空间,而是栖居于一个由物理定律、任务约束和环境交互共同决定的低维、光滑的流形上。

动作流形学习 (AML) vs. 传统噪声预测 (ε-prediction)

基于此,我们设计了动作流形学习(AML)

  • 革新学习目标:模型不再预测噪声,而是直接预测“干净”的动作序列(a-prediction)。学习过程从漫无目的的“去噪”转变为高效的“向可行流形投影”,使得学习目标更明确、收敛更迅速。

  • 提升效率与稳定性:结合DiT (Diffusion Transformer)架构,AML不仅显著加快了推理速度,更重要的是,通过约束输出空间,生成了更平滑、更符合物理规律的动作策略。这对于处理长序列、高维度(如双臂、灵巧手)任务展现出巨大潜力。

3.3 双流感知与两阶段训练:兼顾泛化与精度
  • 双流感知融合

    • VLM语义流:以Qwen3-VL为骨干,赋予模型强大的场景理解与指令解析能力,是模型泛化性的基础。

    • 3D几何流:通过即插即用(Plug-and-Play)的3D模块(如利用VGGT提取单目3D特征,或利用Qwen-Image-Edit合成新视角特征),为模型注入精确的空间几何先验,弥补标准VLM在精细3D定位上的不足。

  • 两阶段训练策略

    • 阶段一:大规模预训练:在UniACT-dataset上进行训练,使模型学习到跨任务、跨形态的通用动作先验。

    • 阶段二:监督微调(SFT):在特定下游任务上进行微调,注入领域特定的精细空间知识,从而在保证泛化性的同时,大幅提升在高精度任务(如穿针引线、叠衣服)上的表现。

四、实验效果:SOTA性能与卓越泛化力

实践是检验真理的唯一标准。我们在多个业界公认的仿真基准上对ABot-M0进行了全面评估,结果证明了其卓越性能。

  • LIBERO & LIBERO-Plus:在考验长程任务能力的LIBERO基准上,ABot-M0 取得了98.6%的平均成功率。在更具挑战性的零样本泛化测试集LIBERO-Plus上,成功率高达 80.5% ,显著优于OpenVLA-OFT等前沿模型,展现了强大的跨任务泛化能力。


  • RoboCasa & RoboTwin 2.0:在复杂的双臂协同操作基准RoboCasa GR1上,ABot-M0 达到了58.3%的成功率,验证了AML范式在处理高维动作空间(29维)时的优越性。在多任务泛化基准RoboTwin 2.0上,即使在场景随机化的情况下,ABot-M0 仍能达到81.2%的成功率。在GitHub主页已经更新RoboTwin 2.086.1的成功率。


ABot-M0在具身VLA公共榜单直接两项第一:https://sota.evomind-tech.com/


五、总结与展望

ABot-M0的核心贡献不仅在于一个高性能的VLA模型,更在于提供了一套从数据到模型、从架构到训练的完整、开源的系统化解决方案

我们的工作有力地证明:即便不依赖任何私有数据和定制硬件,仅仅通过对公开资源的深度整合与系统性工程化,同样可以构建出性能顶尖、泛化能力卓越的通用机器人智能体。

同时ABot的FAST预训练权重可以作为starVLA的各个模型的初始化,进一步为开源贡献。

我们希望ABot-M0能够成为社区的研究基石,赋能更多研究者,共同推动具身智能技术的发展,早日实现“一个大脑,驱动万千形态”的宏伟蓝图。

Illustration generated by AI.

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
米特里策禁赛4场罚款4万!拉扯李镇全头发,踢倒赞助商水桶

米特里策禁赛4场罚款4万!拉扯李镇全头发,踢倒赞助商水桶

奥拜尔
2026-04-08 22:08:04
太可怜了!全红婵被霸凌,282人微信群聊天曝光,体育总局动真格

太可怜了!全红婵被霸凌,282人微信群聊天曝光,体育总局动真格

乌娱子酱
2026-04-08 14:10:45
戏剧性转变:通牒到期,美伊停火

戏剧性转变:通牒到期,美伊停火

南风窗
2026-04-08 14:07:48
研究斑马100年,生物学家尴尬了,原来这身条纹根本不是为了伪装

研究斑马100年,生物学家尴尬了,原来这身条纹根本不是为了伪装

狸猫之一的动物圈
2026-04-06 09:43:06
中俄投下反对票!傅聪:不给使用武力开通行证

中俄投下反对票!傅聪:不给使用武力开通行证

看看新闻Knews
2026-04-08 16:59:04
小姨子每周来我家留宿一次,凌晨4点我装睡,听到她偷偷推开房门

小姨子每周来我家留宿一次,凌晨4点我装睡,听到她偷偷推开房门

今天说故事
2026-04-08 15:17:45
重大胜利!美国高层召开新闻发布会,介绍针对伊朗行动的重大战果

重大胜利!美国高层召开新闻发布会,介绍针对伊朗行动的重大战果

小萝卜丝
2026-04-08 22:17:45
做了连战马英九没敢做的事,郑丽文专机将飞进北京,岛内风向要变

做了连战马英九没敢做的事,郑丽文专机将飞进北京,岛内风向要变

涵豆说娱
2026-04-08 21:40:01
最后通牒前紧急停火!以色列无视美伊协议,大批战机起飞轰炸伊朗

最后通牒前紧急停火!以色列无视美伊协议,大批战机起飞轰炸伊朗

书纪文谭
2026-04-08 18:07:08
伊朗宣布胜利:美国已原则上承诺撤出战斗部队、解除制裁、支付赔偿、承认海峡控制权等!特朗普也宣布胜利:伊朗可以重建了

伊朗宣布胜利:美国已原则上承诺撤出战斗部队、解除制裁、支付赔偿、承认海峡控制权等!特朗普也宣布胜利:伊朗可以重建了

每日经济新闻
2026-04-08 17:32:20
特朗普称停火“不包括”黎巴嫩和黎真主党

特朗普称停火“不包括”黎巴嫩和黎真主党

财联社
2026-04-08 23:12:39
樊振东自愿放弃!国乒公布世乒赛名单仅1小时 温瑞博落选原因曝光

樊振东自愿放弃!国乒公布世乒赛名单仅1小时 温瑞博落选原因曝光

侃球熊弟
2026-04-08 20:41:29
伊朗媒体:伊朗准备对以色列开展“威慑行动”

伊朗媒体:伊朗准备对以色列开展“威慑行动”

澎湃新闻
2026-04-08 23:05:04
彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

白面书誏
2026-04-08 13:59:47
男子称“套圈中的鹦鹉”致七旬老父感染鹦鹉热,救治25天花费超18万 多方回应

男子称“套圈中的鹦鹉”致七旬老父感染鹦鹉热,救治25天花费超18万 多方回应

红星新闻
2026-04-08 18:24:10
“我争的不是名额,是规则”:39岁落榜大叔,实名举报复试第1

“我争的不是名额,是规则”:39岁落榜大叔,实名举报复试第1

教师吧
2026-04-07 22:08:29
郑丽文书法争议:她的字真的不是自己写的吗?

郑丽文书法争议:她的字真的不是自己写的吗?

书画相约
2026-04-08 08:19:04
苹果新品官宣:4月9日,正式开售

苹果新品官宣:4月9日,正式开售

科技堡垒
2026-04-08 10:22:36
随着韩国0-5,女足亚洲杯八强对阵出炉:中国PK弱旅,朝鲜PK强敌

随着韩国0-5,女足亚洲杯八强对阵出炉:中国PK弱旅,朝鲜PK强敌

侧身凌空斩
2026-04-08 22:59:50
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

芳芳历史烩
2026-04-08 16:28:15
2026-04-09 00:03:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2338文章数 596关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

央视披露:78亿变1亿 河南三地现巨额数据造假

头条要闻

央视披露:78亿变1亿 河南三地现巨额数据造假

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

手机
数码
家居
本地
公开课

手机要闻

小米REDMI K90 Max手机「风冷散热封神之战」收官

数码要闻

麒麟9050处理器再次曝光:用上3D堆叠,NPU提升幅度最大!

家居要闻

自在恣意 侘寂风别墅

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版