刚刚，高德ABot-Claw亦庄半马封神！具身智能的Harness来了|算法|机器人|智能体|abot|亦庄天主堂|世界人工智能大会

分享至

新智元报道

编辑：Aeneas 犀牛

【新智元导读】一只四足机器狗，无需预设路线、无需人工遥控，在开放城市环境中自己认路、自己走、自己干活——这是高德「途途」正在上演的真实场景。背后的秘密，是一套终结「一机一图」困局的具身智能Harness——ABot-Claw。

具身智能的破晓时刻来了！

就在刚刚，2026北京亦庄机器人半程马拉松上，阿里巴巴旗下高德正式公开全球首款开放环境全自主具身机器人「高德途途」。

这款四足机器人成功协助视障人士完成复杂避障、人群穿行等实战挑战，突破了「实验室」到「开放环境」之间的技术鸿沟。

我们早已习惯LLM在数字世界的无所不能，然而一旦触及物理实体，以前的具身智能往往会碰壁。

比如，你对着一只机器狗说：带我去最近的公园放松一下。

传统机器人会大概率是一脸茫然——它不知道公园在哪，不知道怎么走，更不知道「放松」意味着什么。

就算你把路线告诉它，它也只能按图索骥，遇到施工封路就彻底抓瞎。

这种「知识孤岛」的工程瓶颈，正是具身智能通往通用AGI的最大绊脚石。

现在，高德正式发布了全球首个面向AGI的全栈具身技术体系ABot，以及智能导盲犬高德途途。

这不仅是一台「能出门、会思考、能导盲」的四足机器人，更是一次对具身智能底层逻辑的重构。

跟传统的机器狗不一样，高德的四足机器人途途会先理解你的意图——你累了、想透气，接着查询自己的「记忆库」找到最近的公园坐标，然后把任务拆解成一系列子目标，最后一路导航到目的地。

如果中途遇到障碍，它会实时调整路线，甚至在你没察觉的情况下绕开一群正在遛弯的大爷大妈。

比如，它甚至可以直接出门到咖啡店里给你取一杯咖啡。

特别是作为体系中枢的ABot-Claw，它的出现，意味着具身智能终于迎来了属于自己的「Harness」（智能驾驭中枢）。

高德，正在用自己的空间智能沉淀，开启具身智能通向AGI的大门。

传统具身智能的致命伤

一机一图、知识孤岛、单体脆弱

长期以来，具身智能领域有一个几乎无解的工程困境，业内称之为「一机一图」。

什么意思？

每台机器人部署到新环境时，必须从零开始：独立建图、独立冷启动、独立训练。

今天这台机器人在A办公室学会了怎么找会议室，明天换一台新机器人到B办公室，一切就得从头再来，经验无法沉淀，知识无法复用。

这就像一家公司每招一个新员工，都得从幼儿园开始教——认字、学加减法、了解公司业务，从零培养到能上手，然后他一离职，下一个人再来一遍。

这就是当前机器人行业的普遍现状。

更致命的是，单体机器人极度脆弱。它们只能围绕眼前的世界建模，眼睛看不到的地方就是未知黑洞。

电梯门关了，它不知道楼上是什么；前方转角有人走过来，它无法预判。

没有记忆、没有协同、没有容错——这就是为什么大部分机器人只能在封闭场景里做做搬运工作，一旦走出实验室，立刻变成不会走路的「科技盲人」。

答案来了：从「单体能力展示」到「系统级解法」

高德途途的出现，打破了这一僵局！

作为一个「开了天眼」的四足机器人，它在开放环境下无需预设路线，无需人工遥控，就能自己认路、自己走。哪怕是超视距外的路况变化，它也能提前预判。

之所以能支撑这种通用能力，真正的秘密在于，它换了一套底层操作系统——ABot-Claw。

如果把机器人比作一匹马，过去的做法是不断给马喂更好的饲料、做更多的训练，希望它跑得更快更远。

而Harness的思路是：给马装上缰绳和马鞍，让骑手能真正驾驭它。

ABot-Claw处于ABot技术体系的Agent层，承上启下：向下接收ABot-M0（操作模型）和ABot-N0（导航模型）的能力输出，向上统一调度四足、轮式、人形等不同形态的机器人本体。

它不是又一个基座模型，而是让基座模型能力真正落地的「中枢神经系统」，从此，机器人从「被动执行器」升级为「主动调度者」。

它不再是一个只会听命令的工具，而是一个能理解意图、规划路径、执行任务、自我纠错的智能体。

从此，具身智能从「单体试错」时代，正式迈入「体系智能」阶段。

值得一提的是，ABot体系的Model层也交出了亮眼成绩单。

ABot-M0操作基座模型在Libero、Libero-Plus、RoboCasa、RoboTwin 2.0等四大权威基准测试中全面刷新世界纪录，Libero-Plus基准上任务成功率高达80.5%，较业界标杆Pi0提升近30%。

ABot-N0导航基座模型更是全球首次用单一模型统一五大核心导航任务，在CityWalker、SocNav、R2R-CE、RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench等7项国际评测中全部达到SOTA，断层式领先行业。

而这一切能力的落地，都需要通过Claw这个「中枢神经」来驾驭。

Claw如何重构具身底座

如果说模型是大脑，那么ABot-Claw就是连接大脑与四肢、并赋予其长期记忆的中枢神经。

它通过三大核心技术支柱，彻底终结了机器人的「失忆症」。

通过Map as Memory、集中式动态调度、分层容错机制，它从数据流与控制流底层，彻底终结了「一机一图」的历史。

Map as Memory，让地图成为世界记忆

跨机器人本体空间记忆系统（Cross-Embodiment Spatial Memory）以全局空间坐标系为统一参考框架，构建支持多模态感知数据（视觉关键帧、物体6D位姿、语义坐标、行为轨迹）持久化存储于联合索引的分布式记忆架构。

该系统支持：

多粒度空间语义建模：通过分层拓扑结构（区域层、路网层、功能层、对象层）实现从宏观导航到微观操作的语义-几何对齐；
混合检索机制（Hybrid Retrival）：融合几何约束（如空间半径查询）与语义相似度（如CLIP嵌入匹配），支持开放词汇条件下的跨模态召回；
上下文零迁移继承：新接入机器人可通过订阅全局空间语义图谱，直接复用历史观测与任务上下文，实现跨设备、跨任务周期的持续认知一致性。

这是高德最有野心的一个创新，也是整个Claw体系的灵魂。

传统机器人的「记忆」，大多是传感器采集的局部数据、执行过的任务日志。这些信息高度碎片化，无法跨设备共享，更无法形成持久化的认知基础。

高德的做法是：把地图升维成智能体的持久化记忆载体。

想想看，人类是怎么「记住」世界的？我们对长期生活的地方有空间记忆，知道家里厨房在哪、公司电梯怎么走；我们对打交道的人有关系记忆，了解同事的习惯和喜好。

这些记忆让我们能在复杂环境中游刃有余，而不是每次出门都像第一次来到这个世界。

ABot-Claw的Map as Memory做的就是这件事——以全局空间坐标为统一锚点，建立持久化空间语义地图，让机器人拥有真正的「世界记忆」。

具体怎么实现？

Claw构建了一套四层视觉空间记忆架构：

BlockLayer（区域层）：定义室内房间和室外街区，支持跨区域的粗粒度定位与长程任务分解。
Road Layer（路网层）：刻画物理连通性——交叉口、门洞、通道，提供路径规划的硬约束。
Function Layer（功能层）：标注关键语义节点——休息区、厨房、电梯厅，将抽象语言意图转化为可导航的功能目标。
Object/POILayer（对象层）：定位具体实体——特定商铺、特定物品位置，作为「最后一米」导航的精确视觉-语义锚点。

有了这套分层拓扑记忆，机器人从「家门口出发」到「穿越城市街区」到「进入购物中心」到「找到特定餐厅的空位」，全程由统一的空间记忆框架支撑，无需在不同系统间切换。

更重要的是，这个记忆是可共享的。

通过以全局空间坐标为锚点的共享空间语义地图，新设备只要连接网络，就能通过读取全局Context实现知识的「零成本继承」。

一台机器人走过的路、认出的物体，另一台新机器人瞬间就能知道。

今天A机器人发现「三楼会议室门口有饮水机」，明天B机器人到同一栋楼执行任务，直接就知道渴了去哪喝水。

这就是终结「一机一图」的核心——知识不再绑定在单一设备上，而是沉淀在共享的世界记忆中，可继承、可累积、可进化。

这套记忆系统还有一个精妙之处：它是动态可维护的。

每一次任务执行的结果——无论成功还是失败——都会作为新的观测证据回写到拓扑图中。

临时道路封闭、新开的店铺、调整后的室内布局，都能通过持续的「维护-反馈」机制动态更新。

高德每天处理的海量导航数据——来自卫星、街景车、众包探针——也会实时注入这套记忆系统。

这意味着机器人不仅能记住「静态的世界」，还能感知「变化的世界」。

保障长程任务的连续性

有了共享记忆还不够。

机器人执行真实任务时，会遇到各种意外：电池快没了、传感器故障了、前面的路被堵了。传统的单体架构下，一个环节出问题，整个任务就崩盘。

ABot-Claw的解法是集中式调度与云边协同。

首先，Claw首创了「一个运行时、多智能体共生」的具身智能范式。

统一的技能抽象打破了异构机器人之间的边界，机械臂、人形、四足，不管什么形态，都可以在同一个框架下协同作业。

任务上下文能无缝移交——如果一台四足机器人电量不足，另一台可以接手继续执行，不需要重新理解任务、重新规划路径。

比如，这两台机器人协作给沙拉撒上胡椒粉。

其次，Claw采用「云端大脑-边缘响应」的两级架构。

云端负责高层任务分解与规划（L3/L4 Planning），边缘侧实现本地高频实时控制（L1/L2 Control），确保物理安全与响应速度。

这就像人的大脑和脊髓反射的分工——你不需要每次眨眼都动用大脑皮层做决策，本能反应由脊髓搞定。

机器人遇到突发障碍时，不需要等云端响应，边缘侧直接避障，毫秒级响应。

这种架构的好处是：即便网络断了，边缘侧仍能保证基本功能运转；云端重连后，立刻同步状态，无缝续上。

闭环反思：让机器人「自我纠错」的灵魂

但最让人惊艳的，还是Claw的反思与纠错。

传统机器人执行任务是线性的：接收指令→执行动作→汇报结果。如果中间出了问题，要么卡死，要么报错，等人工干预。

这就像一个只会背剧本的演员，一旦观众不按套路鼓掌，他就不知道怎么演了。

面对充满不确定性的真实世界，高德首创了Closed-loop Reflection&Self-Correction（闭环反思与自我纠错）机制，这就赋予了系统「尝试-判断-调整」的类人循环能力。

每个子任务完成后，系统的Self-Reflector模块会对执行结果进行评估。

如果成功，继续下一步；如果失败，反思器生成结构化的失败诊断反馈，触发规划器重新规划。

举个真实场景：用户说「我渴了」，机器人理解意图后，规划去最近的零食货架找饮料，但到了货架一看发现没货，传统机器人可能就傻眼了，宣告任务失败。

但Claw支持下的途途会怎么做？

Self-Reflector确认「零食货架无可乐库存」后，会生成反馈：「目标位置无目标物体，建议尝试自动售货机。」

规划器接收反馈，重新规划路径，机器人转向自动售货机，最终在售货机前精准锁定一瓶可乐，任务圆满完成。

这种类人的「尝试-判断-调整」循环，是处理真实世界长尾分布（Edge Cases）的关键，也是它比传统机器人更「聪明」的原因。

现在，机器人就可以轻松完成访客接待这种长程任务了。

让机器人融入人类社会

还有一个容易被忽视但极其重要的点：社会规范。

机器人要在人类社会中活动，不能只顾着完成任务。

电梯里人多，它要知道让一让；人行道上有老人，它要知道绕道走；进了咖啡店，它不能横冲直撞吓到顾客。

ABot-Claw引入强化学习相关技术，通过多智能体相对评估，让机器人自主学习电梯避让、行人礼让等社会规范。

高德还发布了SocialNav社会化导航基座模型，专门训练机器人在人群密集环境中的社交导航能力——这项成果以6/6/5几乎满分的成绩入选CVPR 2026 Oral，断层式领先全行业。

机器人不仅要「能干活」，还要「会做人」——这是具身智能从实验室走向真实社会的必经之路。

Harness铺就AGI标准航线

说完技术细节，让我们跳出来看看更大的图景。

ABot-Claw不仅仅是一个让机器人更好用的系统——它实际上定义了具身智能走向通用人工智能（AGI）的底层架构形态。

通用性跃迁：终结定制化部署依赖

过去，每一类机器人应用场景都需要定制化部署。

家庭服务机器人一套系统，物流配送机器人一套系统，城市巡检机器人又是一套系统。

开发成本高、迭代周期长、经验无法复用。

ABot-Claw改变了这一切。

通过统一的技能抽象和共享的空间记忆，Claw让ABot-M0（操作模型）和ABot-N0（导航模型）的能力得以跨场景、跨形态复用。

同一个「大脑」，可以驱动四足机器人在户外巡检，也可以驱动机械臂在仓库分拣，还可以驱动轮式机器人在商场导购。

这意味着机器人厂商不再需要为每个场景从零开发，而是可以基于Claw提供的「即插即用」智能基座快速适配；意味着一个场景积累的经验可以迁移到其他场景，形成正向飞轮。

高德官方称之为「通用大脑+专用躯体」的产业标准形态。

大脑是通用的，可以不断升级迭代；躯体是专用的，适配不同场景需求。两者解耦，各自演进，就能让效率最大化。

从「单体工具」到「通用智能体」，Harness达成AGI标准航线

ABot体系的强大，在于其内部形成了一个闭环的「飞轮效应」。

ABot体系的三层架构——DATA层（ABot-World世界模型）、MODEL层（ABot-M0/N0基座模型）、AGENT层（ABot-Claw智能体系统），直接形成闭环。

ABot-World生产海量高质量训练数据，覆盖室内居家、商业空间、城市街道、工业场景等多样化真实三维环境。
ABot-M0/N0基于这些数据训练，获得强大的操作与导航能力。ABot-M0在Libero-Plus基准上任务成功率达80.5%，较业界标杆Pi0提升近30%；ABot-N0在7大权威评测中全部达到SOTA。
ABot-Claw将模型能力转化为真实任务执行能力，途途在开放环境中持续运行。
真实运行中积累的数据——成功案例、失败案例、边缘情况——回流到World和记忆库中，指导下一轮数据生成和模型训练。

这样循环往复下去，能力就会螺旋上升。

这就是为什么高德有底气说，途途不只是一个产品发布，而是一个体系的起点。

它今天能买咖啡、送快递、导盲带路，明天可能就能做更复杂的事情——因为它每天都在真实世界中学习，每天都在变强。

AMAP-AI Inside：开源生态降低重复造轮子成本

并且，高德的目标不仅仅是做一台名为「途途」的机器狗，而是成为物理世界智能化的智能基座提供者。

2026年3月31日，高德宣布全量开源ABot-M0，涵盖数据、算法与模型三大维度。

目前规模最大的通用机器人数据集UniACT——整合超过600万条真实操作轨迹、9500多小时训练数据、覆盖20多种机器人形态——对外开放；动作流形学习（AML）算法、双流感知架构等核心技术也一并开源。

不仅如此，近期高德团队还开源了ABot-PhysWorld，作为world Arena的比赛基线。

显然，就像AWS之于云计算，Android之于移动互联网，高德希望ABot体系成为具身智能时代的水电煤。

开源的好处是显而易见的：降低行业重复造轮子的成本，吸引开发者在同一套「Harness语言」上共建。

当越来越多的机器人运行在同一套体系之上，共享的世界记忆就会越来越丰富，每一台新机器人都能从群体智慧中受益。

具身智能的范式跃迁

过去两年，具身智能赛道上演了一场疯狂的「模型军备竞赛」。

但热闹背后，一个尴尬的事实浮出水面：实验室里跑得飞起的模型，到了真实环境就频频拉胯。

问题出在哪？不是模型不够强，而是从「模型能力」到「任务完成」之间，缺了一层关键的系统架构。

就像你有一颗法拉利的发动机，却装在一辆自行车车架上——动力再猛也跑不起来。

ABot-Claw的出现，标志着行业思路的根本转向：从「卷模型」走向「卷应用」。

它解决一个更本质的问题——如何让机器人真正成为「社会人」？

能记住去过的地方，能理解模糊的指令，能在失败后自我调整，能与同伴协同配合，能融入人类的社会规范。

这些能力，单靠堆参数是堆不出来的。

高德在这场范式转换中占据了独特位置。

长期积累的空间智能数据，让它拥有全球最丰富的空间语义资产；日均数亿次的导航请求，让它深谙「从A到B」的全部复杂性。

当其他玩家还在从零构建空间理解能力时，高德已经把这些能力内化为机器人的「先天记忆」。

更聪明的是开源策略。

ABot-体系在近期宣布全面开源，高德显然明白，具身智能需要的是整个个行业共同努力，而高德要做的是最关键的体系搭建。

当越来越多的机器人运行在同一套体系之上，高德的世界记忆就会越滚越大，竞争壁垒也就越筑越高。

独居老人的智能陪护、视障人士的导盲伙伴、风雨无阻的末端配送、安全可靠的工厂协作——这些场景不再是PPT里的愿景，而是正在落地的现实。

当机器人不再是孤立的工具，而是共享记忆、协同进化的智能网络节点时，「帮我去隔壁买杯半糖拿铁」的未来，真的不远了。

而这一步，就从途途迈出的第一步开始。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.