![]()
新智元报道
编辑:Aeneas 犀牛
【新智元导读】一只四足机器狗,无需预设路线、无需人工遥控,在开放城市环境中自己认路、自己走、自己干活——这是高德「途途」正在上演的真实场景。背后的秘密,是一套终结「一机一图」困局的具身智能Harness——ABot-Claw。
具身智能的破晓时刻来了!
就在刚刚,2026北京亦庄机器人半程马拉松上,阿里巴巴旗下高德正式公开全球首款开放环境全自主具身机器人「高德途途」。
![]()
这款四足机器人成功协助视障人士完成复杂避障、人群穿行等实战挑战,突破了「实验室」到「开放环境」之间的技术鸿沟。
我们早已习惯LLM在数字世界的无所不能,然而一旦触及物理实体,以前的具身智能往往会碰壁。
比如,你对着一只机器狗说:带我去最近的公园放松一下。
传统机器人会大概率是一脸茫然——它不知道公园在哪,不知道怎么走,更不知道「放松」意味着什么。
就算你把路线告诉它,它也只能按图索骥,遇到施工封路就彻底抓瞎。
这种「知识孤岛」的工程瓶颈,正是具身智能通往通用AGI的最大绊脚石。
现在,高德正式发布了全球首个面向AGI的全栈具身技术体系ABot,以及智能导盲犬高德途途。
这不仅是一台「能出门、会思考、能导盲」的四足机器人,更是一次对具身智能底层逻辑的重构。
跟传统的机器狗不一样,高德的四足机器人途途会先理解你的意图——你累了、想透气,接着查询自己的「记忆库」找到最近的公园坐标,然后把任务拆解成一系列子目标,最后一路导航到目的地。
如果中途遇到障碍,它会实时调整路线,甚至在你没察觉的情况下绕开一群正在遛弯的大爷大妈。
比如,它甚至可以直接出门到咖啡店里给你取一杯咖啡。
特别是作为体系中枢的ABot-Claw,它的出现,意味着具身智能终于迎来了属于自己的「Harness」(智能驾驭中枢)。
![]()
高德,正在用自己的空间智能沉淀,开启具身智能通向AGI的大门。
传统具身智能的致命伤
一机一图、知识孤岛、单体脆弱
长期以来,具身智能领域有一个几乎无解的工程困境,业内称之为「一机一图」。
什么意思?
每台机器人部署到新环境时,必须从零开始:独立建图、独立冷启动、独立训练。
今天这台机器人在A办公室学会了怎么找会议室,明天换一台新机器人到B办公室,一切就得从头再来,经验无法沉淀,知识无法复用。
这就像一家公司每招一个新员工,都得从幼儿园开始教——认字、学加减法、了解公司业务,从零培养到能上手,然后他一离职,下一个人再来一遍。
这就是当前机器人行业的普遍现状。
更致命的是,单体机器人极度脆弱。它们只能围绕眼前的世界建模,眼睛看不到的地方就是未知黑洞。
电梯门关了,它不知道楼上是什么;前方转角有人走过来,它无法预判。
没有记忆、没有协同、没有容错——这就是为什么大部分机器人只能在封闭场景里做做搬运工作,一旦走出实验室,立刻变成不会走路的「科技盲人」。
答案来了:从「单体能力展示」到「系统级解法」
高德途途的出现,打破了这一僵局!
作为一个「开了天眼」的四足机器人,它在开放环境下无需预设路线,无需人工遥控,就能自己认路、自己走。 哪怕是超视距外的路况变化,它也能提前预判。
之所以能支撑这种通用能力,真正的秘密在于,它换了一套底层操作系统——ABot-Claw。
如果把机器人比作一匹马,过去的做法是不断给马喂更好的饲料、做更多的训练,希望它跑得更快更远。
而Harness的思路是:给马装上缰绳和马鞍,让骑手能真正驾驭它。
ABot-Claw处于ABot技术体系的Agent层,承上启下:向下接收ABot-M0(操作模型)和ABot-N0(导航模型)的能力输出,向上统一调度四足、轮式、人形等不同形态的机器人本体。
![]()
它不是又一个基座模型,而是让基座模型能力真正落地的「中枢神经系统」,从此,机器人从「被动执行器」升级为「主动调度者」。
它不再是一个只会听命令的工具,而是一个能理解意图、规划路径、执行任务、自我纠错的智能体。
从此,具身智能从「单体试错」时代,正式迈入「体系智能」阶段。
值得一提的是,ABot体系的Model层也交出了亮眼成绩单。
ABot-M0操作基座模型在Libero、Libero-Plus、RoboCasa、RoboTwin 2.0等四大权威基准测试中全面刷新世界纪录,Libero-Plus基准上任务成功率高达80.5%,较业界标杆Pi0提升近30%。
![]()
ABot-N0导航基座模型更是全球首次用单一模型统一五大核心导航任务,在CityWalker、SocNav、R2R-CE、RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench等7项国际评测中全部达到SOTA,断层式领先行业。
![]()
而这一切能力的落地,都需要通过Claw这个「中枢神经」来驾驭。
Claw如何重构具身底座
如果说模型是大脑,那么ABot-Claw就是连接大脑与四肢、并赋予其长期记忆的中枢神经。
![]()
它通过三大核心技术支柱,彻底终结了机器人的「失忆症」。
通过Map as Memory、集中式动态调度、分层容错机制,它从数据流与控制流底层,彻底终结了「一机一图」的历史。
Map as Memory,让地图成为世界记忆
跨机器人本体空间记忆系统(Cross-Embodiment Spatial Memory)以全局空间坐标系为统一参考框架,构建支持多模态感知数据(视觉关键帧、物体6D位姿、语义坐标、行为轨迹)持久化存储于联合索引的分布式记忆架构。
该系统支持:
多粒度空间语义建模:通过分层拓扑结构(区域层、路网层、功能层、对象层)实现从宏观导航到微观操作的语义-几何对齐;
混合检索机制(Hybrid Retrival):融合几何约束(如空间半径查询)与语义相似度(如CLIP嵌入匹配),支持开放词汇条件下的跨模态召回;
上下文零迁移继承:新接入机器人可通过订阅全局空间语义图谱,直接复用历史观测与任务上下文,实现跨设备、跨任务周期的持续认知一致性。
这是高德最有野心的一个创新,也是整个Claw体系的灵魂。
传统机器人的「记忆」,大多是传感器采集的局部数据、执行过的任务日志。这些信息高度碎片化,无法跨设备共享,更无法形成持久化的认知基础。
高德的做法是:把地图升维成智能体的持久化记忆载体。
想想看,人类是怎么「记住」世界的?我们对长期生活的地方有空间记忆,知道家里厨房在哪、公司电梯怎么走;我们对打交道的人有关系记忆,了解同事的习惯和喜好。
这些记忆让我们能在复杂环境中游刃有余,而不是每次出门都像第一次来到这个世界。
ABot-Claw的Map as Memory做的就是这件事——以全局空间坐标为统一锚点,建立持久化空间语义地图,让机器人拥有真正的「世界记忆」。
具体怎么实现?
Claw构建了一套四层视觉空间记忆架构:
BlockLayer(区域层):定义室内房间和室外街区,支持跨区域的粗粒度定位与长程任务分解。
Road Layer(路网层):刻画物理连通性——交叉口、门洞、通道,提供路径规划的硬约束。
Function Layer(功能层):标注关键语义节点——休息区、厨房、电梯厅,将抽象语言意图转化为可导航的功能目标。
Object/POILayer(对象层):定位具体实体——特定商铺、特定物品位置,作为「最后一米」导航的精确视觉-语义锚点。
有了这套分层拓扑记忆,机器人从「家门口出发」到「穿越城市街区」到「进入购物中心」到「找到特定餐厅的空位」,全程由统一的空间记忆框架支撑,无需在不同系统间切换。
![]()
更重要的是,这个记忆是可共享的。
通过以全局空间坐标为锚点的共享空间语义地图,新设备只要连接网络,就能通过读取全局Context实现知识的「零成本继承」。
一台机器人走过的路、认出的物体,另一台新机器人瞬间就能知道。
今天A机器人发现「三楼会议室门口有饮水机」,明天B机器人到同一栋楼执行任务,直接就知道渴了去哪喝水。
这就是终结「一机一图」的核心——知识不再绑定在单一设备上,而是沉淀在共享的世界记忆中,可继承、可累积、可进化。
这套记忆系统还有一个精妙之处:它是动态可维护的。
每一次任务执行的结果——无论成功还是失败——都会作为新的观测证据回写到拓扑图中。
临时道路封闭、新开的店铺、调整后的室内布局,都能通过持续的「维护-反馈」机制动态更新。
高德每天处理的海量导航数据——来自卫星、街景车、众包探针——也会实时注入这套记忆系统。
这意味着机器人不仅能记住「静态的世界」,还能感知「变化的世界」。
保障长程任务的连续性
有了共享记忆还不够。
机器人执行真实任务时,会遇到各种意外:电池快没了、传感器故障了、前面的路被堵了。传统的单体架构下,一个环节出问题,整个任务就崩盘。
ABot-Claw的解法是集中式调度与云边协同。
首先,Claw首创了「一个运行时、多智能体共生」的具身智能范式。
统一的技能抽象打破了异构机器人之间的边界,机械臂、人形、四足,不管什么形态,都可以在同一个框架下协同作业。
任务上下文能无缝移交——如果一台四足机器人电量不足,另一台可以接手继续执行,不需要重新理解任务、重新规划路径。
比如,这两台机器人协作给沙拉撒上胡椒粉。
其次,Claw采用「云端大脑-边缘响应」的两级架构。
云端负责高层任务分解与规划(L3/L4 Planning),边缘侧实现本地高频实时控制(L1/L2 Control),确保物理安全与响应速度。
这就像人的大脑和脊髓反射的分工——你不需要每次眨眼都动用大脑皮层做决策,本能反应由脊髓搞定。
机器人遇到突发障碍时,不需要等云端响应,边缘侧直接避障,毫秒级响应。
这种架构的好处是:即便网络断了,边缘侧仍能保证基本功能运转;云端重连后,立刻同步状态,无缝续上。
闭环反思:让机器人「自我纠错」的灵魂
但最让人惊艳的,还是Claw的反思与纠错。
传统机器人执行任务是线性的:接收指令→执行动作→汇报结果。如果中间出了问题,要么卡死,要么报错,等人工干预。
这就像一个只会背剧本的演员,一旦观众不按套路鼓掌,他就不知道怎么演了。
面对充满不确定性的真实世界,高德首创了Closed-loop Reflection&Self-Correction(闭环反思与自我纠错)机制,这就赋予了系统「尝试-判断-调整」的类人循环能力。
每个子任务完成后,系统的Self-Reflector模块会对执行结果进行评估。
如果成功,继续下一步;如果失败,反思器生成结构化的失败诊断反馈,触发规划器重新规划。
举个真实场景:用户说「我渴了」,机器人理解意图后,规划去最近的零食货架找饮料,但到了货架一看发现没货,传统机器人可能就傻眼了,宣告任务失败。
但Claw支持下的途途会怎么做?
Self-Reflector确认「零食货架无可乐库存」后,会生成反馈:「目标位置无目标物体,建议尝试自动售货机。」
规划器接收反馈,重新规划路径,机器人转向自动售货机,最终在售货机前精准锁定一瓶可乐,任务圆满完成。
这种类人的「尝试-判断-调整」循环,是处理真实世界长尾分布(Edge Cases)的关键,也是它比传统机器人更「聪明」的原因。
现在,机器人就可以轻松完成访客接待这种长程任务了。
让机器人融入人类社会
还有一个容易被忽视但极其重要的点:社会规范。
机器人要在人类社会中活动,不能只顾着完成任务。
电梯里人多,它要知道让一让;人行道上有老人,它要知道绕道走;进了咖啡店,它不能横冲直撞吓到顾客。
ABot-Claw引入强化学习相关技术,通过多智能体相对评估,让机器人自主学习电梯避让、行人礼让等社会规范。
高德还发布了SocialNav社会化导航基座模型,专门训练机器人在人群密集环境中的社交导航能力——这项成果以6/6/5几乎满分的成绩入选CVPR 2026 Oral,断层式领先全行业。
![]()
机器人不仅要「能干活」,还要「会做人」——这是具身智能从实验室走向真实社会的必经之路。
Harness铺就AGI标准航线
说完技术细节,让我们跳出来看看更大的图景。
ABot-Claw不仅仅是一个让机器人更好用的系统——它实际上定义了具身智能走向通用人工智能(AGI)的底层架构形态。
通用性跃迁:终结定制化部署依赖
过去,每一类机器人应用场景都需要定制化部署。
家庭服务机器人一套系统,物流配送机器人一套系统,城市巡检机器人又是一套系统。
开发成本高、迭代周期长、经验无法复用。
ABot-Claw改变了这一切。
通过统一的技能抽象和共享的空间记忆,Claw让ABot-M0(操作模型)和ABot-N0(导航模型)的能力得以跨场景、跨形态复用。
同一个「大脑」,可以驱动四足机器人在户外巡检,也可以驱动机械臂在仓库分拣,还可以驱动轮式机器人在商场导购。
这意味着机器人厂商不再需要为每个场景从零开发,而是可以基于Claw提供的「即插即用」智能基座快速适配;意味着一个场景积累的经验可以迁移到其他场景,形成正向飞轮。
高德官方称之为「通用大脑+专用躯体」的产业标准形态。
大脑是通用的,可以不断升级迭代;躯体是专用的,适配不同场景需求。两者解耦,各自演进,就能让效率最大化。
从「单体工具」到「通用智能体」,Harness达成AGI标准航线
ABot体系的强大,在于其内部形成了一个闭环的「飞轮效应」。
![]()
ABot体系的三层架构——DATA层(ABot-World世界模型)、MODEL层(ABot-M0/N0基座模型)、AGENT层(ABot-Claw智能体系统),直接形成闭环。
ABot-World生产海量高质量训练数据,覆盖室内居家、商业空间、城市街道、工业场景等多样化真实三维环境。
ABot-M0/N0基于这些数据训练,获得强大的操作与导航能力。ABot-M0在Libero-Plus基准上任务成功率达80.5%,较业界标杆Pi0提升近30%;ABot-N0在7大权威评测中全部达到SOTA。
ABot-Claw将模型能力转化为真实任务执行能力,途途在开放环境中持续运行。
真实运行中积累的数据——成功案例、失败案例、边缘情况——回流到World和记忆库中,指导下一轮数据生成和模型训练。
这样循环往复下去,能力就会螺旋上升。
这就是为什么高德有底气说,途途不只是一个产品发布,而是一个体系的起点。
它今天能买咖啡、送快递、导盲带路,明天可能就能做更复杂的事情——因为它每天都在真实世界中学习,每天都在变强。
AMAP-AI Inside:开源生态降低重复造轮子成本
并且,高德的目标不仅仅是做一台名为「途途」的机器狗,而是成为物理世界智能化的智能基座提供者。
2026年3月31日,高德宣布全量开源ABot-M0,涵盖数据、算法与模型三大维度。
目前规模最大的通用机器人数据集UniACT——整合超过600万条真实操作轨迹、9500多小时训练数据、覆盖20多种机器人形态——对外开放;动作流形学习(AML)算法、双流感知架构等核心技术也一并开源。
不仅如此,近期高德团队还开源了ABot-PhysWorld,作为world Arena的比赛基线。
![]()
显然,就像AWS之于云计算,Android之于移动互联网,高德希望ABot体系成为具身智能时代的水电煤。
开源的好处是显而易见的:降低行业重复造轮子的成本,吸引开发者在同一套「Harness语言」上共建。
当越来越多的机器人运行在同一套体系之上,共享的世界记忆就会越来越丰富,每一台新机器人都能从群体智慧中受益。
具身智能的范式跃迁
过去两年,具身智能赛道上演了一场疯狂的「模型军备竞赛」。
但热闹背后,一个尴尬的事实浮出水面:实验室里跑得飞起的模型,到了真实环境就频频拉胯。
问题出在哪?不是模型不够强,而是从「模型能力」到「任务完成」之间,缺了一层关键的系统架构。
就像你有一颗法拉利的发动机,却装在一辆自行车车架上——动力再猛也跑不起来。
ABot-Claw的出现,标志着行业思路的根本转向:从「卷模型」走向「卷应用」。
它解决一个更本质的问题——如何让机器人真正成为「社会人」?
能记住去过的地方,能理解模糊的指令,能在失败后自我调整,能与同伴协同配合,能融入人类的社会规范。
这些能力,单靠堆参数是堆不出来的。
高德在这场范式转换中占据了独特位置。
长期积累的空间智能数据,让它拥有全球最丰富的空间语义资产;日均数亿次的导航请求,让它深谙「从A到B」的全部复杂性。
当其他玩家还在从零构建空间理解能力时,高德已经把这些能力内化为机器人的「先天记忆」。
更聪明的是开源策略。
ABot-体系在近期宣布全面开源,高德显然明白,具身智能需要的是整个个行业共同努力,而高德要做的是最关键的体系搭建。
当越来越多的机器人运行在同一套体系之上,高德的世界记忆就会越滚越大,竞争壁垒也就越筑越高。
独居老人的智能陪护、视障人士的导盲伙伴、风雨无阻的末端配送、安全可靠的工厂协作——这些场景不再是PPT里的愿景,而是正在落地的现实。
当机器人不再是孤立的工具,而是共享记忆、协同进化的智能网络节点时,「帮我去隔壁买杯半糖拿铁」的未来,真的不远了。
而这一步,就从途途迈出的第一步开始。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.