网易首页 > 网易号 > 正文 申请入驻

具身智能的「GPT时刻」?高德连发两个全面SOTA的ABot具身基座模型

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心编辑部

过去几年,大模型把自然语言处理彻底重塑了。GPT 出来之前,NLP 领域的状态是:每个任务一套模型,每个场景一批数据,每个公司一条流水线,互不通用,边界清晰。GPT 之后,这套逻辑被一个预训练底座 + 任务微调的范式整个替换掉了。

机器人行业今天的处境,像极了 2019 年的 NLP。

不同厂商的不同形态机器人,用着各自独立的动作表示体系,数据互不兼容,模型无法复用。做一个新场景,基本上要从头搭一套…… 当模型与数据被深度绑定在特定形态和特定场景中,机器人所展现出的能力往往更像是一种精心调校的表演,而不是可以迁移、可以泛化的通用技能。

一个只能在特定场景跳舞的机器人,和一个可以在真实生活帮你占座的机器人,你会选哪个?

近日,阿里巴巴集团旗下高德的 ABot 系列具身基座模型的发布,终于让行业看到了机器人进入开放世界的可能。

ABot 系列包括两款基座模型:ABot-M0、ABot-N0,前者负责机器人的「手」(操作),后者负责机器人的「腿」(导航)。

这两款模型各自在其领域补齐了行业能力缺口,ABot-M0 让不同形态的机器人都能基于统一底座完成精细操作,ABot-N0 则让机器人首次具备在真实开放环境中执行长程复杂任务的能力。它们在具身操作和具身导航做到全面 SOTA,霸榜了 10 项全球权威评测。

但更重要的不是这些数字,而是具身智能首次在操作和导航两条核心链路,分别拥有了统一底座。开发者不需要再为每个机器人、场景重做一套系统,而是基于这两个底座去做进一步研究。

如果说 GPT 的出现让 NLP 从任务专用模型转向通用基座,那么 ABot 系列的发布,标志着具身智能正在经历同样的范式跃迁,从为每个机器人、每个场景定制专用系统,转向用统一模型覆盖多样化任务的工程级底座时代。

具身智能,为什么迟迟没有 GPT 时刻

语言模型之所以能够演化出一种通用能力底座,是因为它们具有统一表示(token)、统一架构(基本基于 Transformer)以及可规模化的预训练。从而形成可复用、可迁移、可持续进化的能力底座。

相比之下,具身智能长期缺失的,恰恰是这种「统一」。过去几年,行业始终困在几个结构性瓶颈之中。

首先是数据层面的差异。语言模型的训练数据来自互联网文本,规模庞大、结构却很统一,通过统一的 token 表示实现规模化训练,因此可以在同一架构上持续堆数据、堆算力。而机器人的训练数据则是操作轨迹、导航路径和三维场景信息,这类数据采集成本高、格式各异、天然碎片化,远不像文本那样可以直接汇聚成统一语料,更重要的是他们的本体还不同,机械臂、机器狗和人形机器人的数据无法通用。

本质在于动作表示和空间建模的不统一。在具身领域,不同机器人使用不同的控制频率、坐标体系和动作表达方式:有的以关节角为核心,有的基于末端执行器位姿,有的采用绝对坐标。这些差异看似只是工程实现方式的不同,实际上却决定了数据能否共享、模型能否迁移。一套模型在某种硬件形态上训练完成,并不意味着可以直接迁移到另一平台,因为动作空间本身并不兼容。

动作表示难以统一,使得行业即便积累了大量轨迹数据,也难以整合为规模化训练的基础;与此同时,空间理解能力的不足进一步加剧了这一问题。机器人面对的是连续、高维、动态变化的三维物理空间,它不仅要看见,还要理解空间结构、物体关系与可行动区域。缺乏稳定的三维语义建模能力,使模型在复杂或长程任务中容易失效,鲁棒性不足。

此外,对具身来说非常重要的导航能力仍然高度碎片化。相比固定工位上的机械操作,移动意味着要面对动态变化的环境、随机出现的干扰,以及跨场景的任务切换。无论是跨楼层送物、在商场中跟随服务,还是城市级长程导航,导航都是具身智能迈向通用行动能力的前提。

但现实是,很多主流方法离散且碎片:一套模型用于位置导航,另一套模型用于语义导航,缺什么再补充什么。每个任务都能在局部指标上取得一定成绩,却难以形成统一能力框架,机器训练和适用也就无从谈起。

也正是在这样的背景下,我们很难看到具身智能可以像语言模型一样拥有可复用的具身底座。

从碎片化定制到底座化复用

而高德天然具备解决这些问题的能力,地图与位置服务多年沉淀的大规模真实 3D 场景与空间语义资产,恰恰是具身导航中最稀缺的资源;而长期面向亿级用户的工程落地经验,则意味着它更熟悉如何把系统真正跑在真实环境里。

ABot-M0:先动作语言统一,再谈复用

具身操作的核心难题,用一句话说就是:怎么让同一套模型,驾驭形态各异的机器人,完成各种各样的操作任务。

ABot-M0 的解法是用「动作语言统一」(把异构机器人的动作转换为统一表示)降低数据割裂与训练成本。为了实现这一目标,ABot-M0 从「数据统一 — 算法革新 — 空间感知」三个方面进行了系统性重构。


技术上,它通过统一坐标系、控制频率和增量式动作建模,把来自不同平台的操作轨迹数据打通,并构建了一个时长超过 9500 小时包含 600 多万条轨迹、涉及 20 多种具身形态的混合训练集。更关键的是,这套数据不是靠私有采集堆出来的,完全基于公开数据,这也意味着这条路径在原则上通用的。

此外,为了解决动作格式、坐标系和采样率的不一致,高德还定义了标准化的预处理流水线:

  • 所有动作均转换为末端执行器坐标系下的增量动作(delta actions)。

  • 旋转采用旋转向量编码以避免奇异性。

  • 应用「pad-to-dual」策略,在共享框架内支持单臂和双臂任务。

  • 训练期间在各数据集间进行均匀采样,以平衡任务和具身的分布。

这种统一的数据基础打破了数据集间的壁垒,通过对齐各来源的时空结构,实现了稳健的跨具身泛化。

算法层面,ABot-M0 提出了 AML(Action Manifold Learning,动作流形学习)。这个方法背后有一个直觉上成立的假设:真实有效的机器人动作,并不是随机分布在所有可能的动作空间里,而是集中在一个受物理规律和任务约束共同塑造的低维流形上。在这个流形上学习,比在全空间暴力搜索更高效,生成的动作序列也更符合物理规律、更稳定。


为增强空间感知,ABot-M0 还引入 3D 感知模块,增强模型对前后、远近、遮挡等空间语义的理解,在复杂环境中实现更精准的操作决策。

效果上,在 Libero、Libero-Plus、RoboCasa 基准测试中,ABot-M0 在包含复杂任务组合与动态场景扰动的设定下,平均任务成功率均达到 SOTA。在高难度的 Libero-Plus 基准上,ABot-M0 达到了 80.5% 的任务成功率,比此前最强方案 pi0 提升近 30%。这个提升幅度在工程上是有意义的,从 50% 到 65% 可能只是参数调整,从 50% 到 80% 意味着系统性的能力跃升。


但这次发布更值得关注的,不是这个分数本身,而是它背后隐含的工程逻辑:一旦动作表示被统一,数据就可以跨平台积累,模型就可以持续进化,部署成本就会系统性下降。这好比一个正向飞轮,一旦启动,效果会越来越好。

具身智能的 「GPT」 时刻,ABot-N0 攻克具身导航核心难题

如果说 ABot-M0 解决的是「手」的问题,ABot-N0 要解决的是「腿」的导航问题,更准确的说,是机器人如何在开放的真实世界里自主移动、理解环境、完成长程任务。

这个问题比操作更难,因为它的不确定性更高。操作任务通常在相对受控的近场环境里,机器人面对的是相对固定和理想的物理环境;导航任务面对的是动态开放世界,场景会变,人会出现,路线会动,指令需要实时拆解和调整。更关键的是,长程任务的失败往往是级联的,一个子任务失败,如果没有容错机制,后续全部崩溃。

导航,这个属于高德的「舒适区」,想要在具身智能上实现突破,远比想象的困难。

当前行业的主流做法是任务拆分:针对不同类型的导航任务(物体导航、语言指令跟随、社交导航……)分别训练专用模型,各自优化。这个做法有效,但存在一个根本性的上限:专用模型无法从异构数据中提取统一的物理先验,泛化能力受限,遇到训练分布之外的场景就会失效。

ABot-N0 的做法是全任务一统:在单一 VLA(视觉 - 语言 - 动作)架构内,实现五大核心导航任务的「大一统」:

  • 点位导航(Point-Goal):精确到达度量坐标,实现基础避障与移动;

  • 目标物导航(Object-Goal):在未知环境中通过语义推理搜索并定位特定物体;

  • 指令跟随(Instruction-Following):严密对齐复杂的长程自然语言路径;

  • POI 导航(POI-Goal):识别兴趣点并精准进入物理入口,解决「最后几米」的室内外衔接难题;

  • 行人跟随(Person-Following):实现对动态目标的实时跟踪,赋予机器人社会化交互能力。


ABot-N0 的数据、性能、任务概览

相比只能覆盖部分任务类型的导航模型,ABot-N0 在单一模型中统一五类核心导航任务,让长程复杂任务的执行具备了结构上的可行性。它不再为每种任务单独设计一套系统,而是在同一能力框架下完成不同约束条件下的表达。

这本质上是一个更激进的假设,机器人在世界里移动和理解空间,底层逻辑是统一的,不同任务只是这个统一能力在不同约束条件下的表达,在具体执行中,机器只需在模型的调动下拆解任务,而非在任务的驱动下调动模型。

在技术实现上,ABot-N0 打破了传统的任务隔离方法,采用层次化的「大脑 - 动作」设计哲学。

  • 认知大脑:基于预训练 LLM,负责深度语义理解、任务拆解与空间推理,理解「帮我看看门口有没有快递」这种复杂意图。

  • 动作专家:利用流匹配技术生成精确轨迹,让机器人动作不再生硬,能够像人类一样在复杂环境中稳定、柔顺地穿行。


数据侧是另一个重量级投入:高德构建了约 8000 个高保真 3D 场景和近 1700 万条专家示例的导航数据引擎。这个规模不是随便能堆出来的,背后是高德地图多年积累的时空数据资产,3D 场景建模的成本和质量,普通机构几乎不可能复现。


评测结果是,其在 CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench 七大权威基准测试中全面刷新了纪录。其中 SocNav 成功率提升 40.5%,HM3D-OVON 物体导航成功率提升 8.8%。SocNav 这个方向尤其值得关注,机器人在有人的动态环境里安全、自然地移动,是服务机器人规模化商用的必要前提,之前一直是这个领域的硬骨头。


Point-Goal 任务:在 CityWalker 及 SocNav 上分别进行开环和闭环评测

但最终让 ABot-N0 从实验室走向现实的,是那套 Agentic Navigation System 框架,这是一个把读懂指令→任务拆解→执行→感知→记忆→决策与纠错串成闭环的代理式系统。高德用全球首创的代理系统跨越了从论文到产品之间那道最难的墙。

高德凭什么做成这件事?

具身智能这条赛道进入者不少,为什么是高德先跑通了?

算法是一方面,但也不全是,因为算法是可以追赶的,SOTA 只是实时的数据表征。高德真正的护城河在于两点:多年的空间智能探索、大规模高质量数据与工程化落地能力。

高德做地图和位置服务超过 20 年。这 20 年积累的,不只是道路网络数据,而是大规模真实世界的 3D 场景理解能力:建筑物的空间结构、室内室外的语义信息、人流动线的模式…… 这些东西,恰好是具身导航模型最需要、也最难靠短期采集补上的训练数据。

把地图数据资产脱敏转化为具身智能的训练基础,这个转化本身就是一种核心能力。高保真 3D 场景、专家导航示例,模型建立并非资本驱动,它需要多年的数据积累、场景建模工程能力,以及把这些数据组织成有效训练集的系统工程。

操作侧同样如此。ABot-M0 对 600 万条开源轨迹数据进行统一清洗与标准化,看起来是数据整合问题,实则需要对操作任务的结构、动作表示的差异、不同机器人形态之间的映射关系有深入理解。异构数据的统一,本质上是对任务抽象能力的体现,而不是简单的数据拼接。

如果说数据资产构成了训练基础,那么工程化能力则决定了模型能否真正落地。

ABot-N0 已实现在真实四足机器人平台的部署,并在边缘设备上实现高效推理与闭环控制。这意味着模型不仅能在 GPU 集群中跑通,还能在算力受限、功耗受限、延迟敏感的边缘环境中稳定运行。

这一步其实非常关键。很多具身团队擅长研究范式创新,却未必擅长把系统真正放进真实世界。高德的基因恰恰偏向工程,亿级用户规模的地图服务,要求系统长期稳定运行。把这种工程经验迁移到具身系统中,使得可部署、可持续运行成为设计目标,而不是附加项,而这也恰好解决了具身智能进入开放物理世界的核心命题。

因此,高德的差异化并不在于某一次算法领先,而在于数据与工程能力体系的集中体现。当空间资产、数据治理能力与真实部署经验叠加在一起,具身底座才真正具备长期竞争力。

ABot 系列的发布,或许将在 1-2 年内带来直接改变:统一数据格式和预训练权重,让中小团队无需从零积累百万级轨迹。过去需要 6 个月、数百万元成本的数据采集与训练,现在可能缩短到数周、数十万元的微调成本。

开发范式也将从「重写整套感知 - 规划 - 控制系统」转向「基于底座模型做场景化 fine-tune」。或许一个五人小团队,可能在几周内完成过去需要数十人、数月交付的定制项目。

更远的未来,机器人能力可能变成可组合的 API:就像今天开发者调用 GPT 生成文案、DALL-E 生成图片、Sora 生成视频,未来可能直接调用 ABot 完成物理世界任务:「帮我整理书架」「去仓库盘点库存」「在工厂巡检设备异常」。

当然,硬件成本、安全验证、数据闭环等问题仍然存在,具身智能距离真正普及还有不短的路。但当统一表示开始降低训练门槛,当模型可以在真实环境中持续运行,这个行业至少迈出了从定制工程走向通用底座的一步。

它未必是终局,但方向已经变得更清晰了。

下附此次高德发布的两款具身基座模型的项目主页及技术报告:

  • ABot-M0 项目主页|https://amap-cvlab.github.io/ABot-Manipulation/

  • ABot-M0 技术报告|https://github.com/amap-cvlab/ABot-Manipulation/blob/main/assets/ABot-M0_Technical_Report.pdf

  • ABot-N0 项目主页:https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/

  • ABot-N0 技术报告:https://github.com/amap-cvlab/ABot-Navigation/blob/ABot-N0/ABot-N0_Technical_Report.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离谱!追觅年会彻底翻车,新车全是山寨货,被东风猛士直接质疑

离谱!追觅年会彻底翻车,新车全是山寨货,被东风猛士直接质疑

凡兮说
2026-02-11 20:25:29
奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

南权先生
2026-02-13 15:17:51
阿尔加维杯:U16葡萄牙3-0日本U16,迷你罗替补出场

阿尔加维杯:U16葡萄牙3-0日本U16,迷你罗替补出场

懂球帝
2026-02-13 11:09:06
侯友宜整合新北之战成典范!郭正亮喊了不起:郑重向他道歉

侯友宜整合新北之战成典范!郭正亮喊了不起:郑重向他道歉

新时光点滴
2026-02-13 00:12:48
吸烟的人会短命吗?英国专家50年调查真相:每支烟偷走20分钟,戒烟永远不晚

吸烟的人会短命吗?英国专家50年调查真相:每支烟偷走20分钟,戒烟永远不晚

消化石医生
2026-02-12 21:15:54
断星链又封Telegram!俄兵恐慌喊话普京:夺走保命工具,种瓜得瓜

断星链又封Telegram!俄兵恐慌喊话普京:夺走保命工具,种瓜得瓜

老马拉车莫少装
2026-02-11 17:15:53
震撼联盟!最另类赛季报销,肖华祭出罚款+改规则

震撼联盟!最另类赛季报销,肖华祭出罚款+改规则

体育新角度
2026-02-13 14:59:55
发布涨价公告后股价“20CM”涨停!红包大战带来对AI基础设施的巨大需求

发布涨价公告后股价“20CM”涨停!红包大战带来对AI基础设施的巨大需求

每日经济新闻
2026-02-13 14:59:38
183次三双!约基奇30岁就历史第2了,你知道30岁威少几次三双吗

183次三双!约基奇30岁就历史第2了,你知道30岁威少几次三双吗

林子说事
2026-02-13 14:08:08
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
光线传媒成交额达100亿元,现涨15.52%

光线传媒成交额达100亿元,现涨15.52%

每日经济新闻
2026-02-13 14:51:05
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
莫言说:当你老了,躺在病床上面,无依无靠时,你就会明白:这辈子最亲的,并非血脉至亲,竟是这3样东西。

莫言说:当你老了,躺在病床上面,无依无靠时,你就会明白:这辈子最亲的,并非血脉至亲,竟是这3样东西。

品读时刻
2026-02-11 17:17:59
身家过亿的财经女侠叶檀,抗癌3年悔悟:丁克是这辈子最错的决定

身家过亿的财经女侠叶檀,抗癌3年悔悟:丁克是这辈子最错的决定

青眼财经
2026-02-11 19:36:31
惨败仍有收获!U18国青2将被张博源主帅看中 除张懿赵杰还有1人

惨败仍有收获!U18国青2将被张博源主帅看中 除张懿赵杰还有1人

大嘴爵爷侃球
2026-02-13 18:21:14
张铚秀凭对越战功晋升司令员,徐帅连连摇头不满,背后缘由成谜

张铚秀凭对越战功晋升司令员,徐帅连连摇头不满,背后缘由成谜

磊子讲史
2025-12-25 16:05:15
女子吃打包回家的烤全羊,尾部发现大量粪便:“很臭又恶心,店家赔偿1500元”

女子吃打包回家的烤全羊,尾部发现大量粪便:“很臭又恶心,店家赔偿1500元”

极目新闻
2026-02-13 13:49:12
联动辱华IP,柯南“完结”让全网破防了!

联动辱华IP,柯南“完结”让全网破防了!

广告创意
2026-02-12 14:08:46
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
85岁的邓颖超,找到李鹏,开口就是5个字:“我想安乐死。”

85岁的邓颖超,找到李鹏,开口就是5个字:“我想安乐死。”

玥来玥好讲故事
2026-02-13 20:37:31
2026-02-13 22:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2216643文章数 5465关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

家居
健康
时尚
数码
房产

家居要闻

中古雅韵 乐韵伴日常

转头就晕的耳石症,能开车上班吗?

穿上这些鞋拥抱春天

数码要闻

IDC:2025年中国平板出货量增13.1%,华为全年领跑,联想逆势增长

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版