当一句“把杯子拿过来”下达给机器人,它能听懂指令、识别物体、规划路径,却常在执行瞬间动作偏移、抓取失败。长期困扰具身智能领域的语义与运动衔接不足问题,让高层推理与底层执行相互割裂,最终导致机器人“想得明白,却做不到位”。
核心原因在于,语义理解与运动控制之间,缺少一套稳定、泛化、鲁棒的闭环映射框架。
![]()
4月6日,智元机器人正式推出新一代具身智能基座大模型Genie Operator-2(GO-2),以统一架构打通从逻辑推理到精准动作的执行闭环,依托数万小时训练数据与架构创新,在多项机器人基准测试中取得行业领先成绩。
01.
迭代升级:GO-2 补齐规划与执行断层,加速场景落地
2025年3月,智元推出GO-1基座模型,聚焦解决具身智能三大痛点:语义与运动脱节、泛化能力不足、落地难度高。基于ViLLA架构,GO-1实现视觉、语言、动作的统一建模,通过 VLM 多模态理解层、Latent Planner隐式规划器与Action Expert动作专家协同,完成 “理解-规划-执行”闭环,让机器人动作生成更稳定可靠。
![]()
搭配Genie Studio一站式开发平台,GO-1覆盖数据采集至真机部署全流程,部署效率较传统方案提升2-3倍,兼容通用数据格式,降低开发者上手与二次开发成本。该模型先后获IROS最佳论文提名、机器人顶刊TRO接收、世界人工智能大会SAIL之星等荣誉,已深度集成至Genie Studio平台,并完成真实场景规模化落地验证。
![]()
GO-1让机器人具备可靠的理解能力,能听懂指令、识别场景、自主规划任务流程。但进入复杂真实环境后,机器人虽能输出合理规划,却难以保证动作精准落地。
举个简单的例子,让机器人整理厨房,它的逻辑很清晰:先从水池取出碗碟,放进洗碗机,再启动程序。理论上流程毫无问题,但实际操作中,可能因为视觉误差抓偏了碗沿,或者转身时手臂轨迹稍有偏移,最终导致碗碟掉落。
问题不在于规划本身,而在于规划与执行之间存在衔接断层,这也是行业长期存在的语义 - 运动衔接难题。传统 VLA 模型链路为:高层语义推理→抽象表示→控制系统→机器人动作,高层抽象指令与真实机器人动作存在偏差,执行阶段控制模块易脱离规划,直接依据视觉信息生成动作,导致长程任务误差累积、动作偏离计划、系统稳定性下降。
GO-2 模型聚焦解决规划到执行的衔接问题,让机器人不仅能 “看懂、听懂”,更能稳定、可靠地完成物理操作,实现知行合一。
02.
两大核心架构:支撑机器人稳定执行复杂动作
要让机器人稳定执行任务,需解决两大关键:生成可落地的动作规划、在真实环境中稳定执行规划。GO-2 围绕这两点构建完整架构:通过动作思维链完成高层动作推理,通过异步双系统保障稳定执行。
![]()
03.
动作思维链:先推理,再执行
传统模型多直接生成动作,GO-2 采用Action Chain-of-Thought(动作思维链),在动作空间完成前置推理(论文地址:https://arxiv.org/abs/2601.11404)。机器人先确定高层动作序列,搭建宏观行为路径,再逐层拆解为可执行步骤,贴近人类动作规划逻辑。
ACoT-VLA 架构由显式动作推理器(EAR)与隐式动作推理器(IAR)互补组成。EAR为轻量 Transformer,输入视觉观测与语言指令后,通过流匹配生成参考动作轨迹,提供可执行运动线索;IAR从VLM 隐层特征中提取视觉可及性、动作语义等潜在先验,补充隐性行为规律。
![]()
两者输出通过交叉注意力融合,送入动作头完成去噪,生成流畅精准动作。训练阶段采用真实参考轨迹优化,推理阶段自主生成动作,实现自条件生成。该技术相关论文《ACoT-VLA》已于 2026年3月9日被CVPR 2026接收。
04.
异步双系统:低频规划,高频精准跟随
仅靠高层动作规划无法应对真实环境扰动,传感器噪声、接触状态变化与场景干扰都会导致执行偏差。GO-2 采用异步双系统架构,以解耦节奏实现规划与执行的精准匹配,机器人按“慢决策、快执行”协同工作,稳定将高层规划转化为真实动作。
该系统由低频语义规划模块与高频动作跟随模块协同构成。语义规划模块以低频率运行,负责生成结构化高层动作序列,从宏观意图逐层拆解为分级子动作指令,提供稳定执行导向;动作跟随模块以高频率运行,实时接收规划指令并结合现场观测信息生成控制信号,在扰动中动态修正姿态、力度与轨迹,始终贴合规划路径。
训练阶段引入强制教学(teacher forcing)机制,以真实高层动作序列为条件并注入规划噪声,让模型在非完美规划下仍可稳定执行,提升部署鲁棒性。
![]()
最终,这套“低频规划 + 高频跟随”设计,让机器人兼顾任务稳定性与精细控制能力,彻底打通规划到执行的关键链路。
05.
四项Benchmark全线第一!GO-2正在定义下一代具身智能标准
在全新架构的支撑下,GO-2在多个主流具身智能基准测试(benchmark)中,均取得了全面SOTA(现有最佳技术)成绩,在任务成功率、环境鲁棒性以及跨场景泛化能力上,都明显领先于当前主流模型,比如π05、NVIDIAGR00T。
具体来看各基准测试的表现,亮点十分突出:
• LIBERO Benchmark:GO-2在Spatial(空间)、Object(物体)、Goal(目标)与Long(长程)四类任务中,均拿下排名第一的好成绩,平均成功率高达98.5%,展现出极强的基础任务执行能力。
![]()
• LIBERO-Plus Benchmark:这个测试专门设置了包含相机、光照、背景和噪声等多种环境扰动的场景,GO-2在零样本测试中,平均成功率达到86.6%,远超目前已有的其他方法,充分体现出超强的环境适应和泛化能力。
![]()
• VLA BenchBenchmark:在跨类别与纹理泛化测试中,GO-2平均得分达到47.4,尤其是在纹理泛化任务上,表现远优于其他同类模型,进一步验证了其跨场景适配能力。
![]()
• Genie Sim3.0 Benchmark(Sim-to-Real):这是面向真实世界迁移的评测,GO-2仅使用仿真数据训练,在真实环境测试中就取得了82.9%的平均成功率,零样本跨域迁移能力表现出色,明显优于π0.5的77.5%。
![]()
06.
从静态模型到持续进化的生产力系统 GO-2模型构建规模化落地闭环
在实验室场景的任务执行能力表现出色,但真实场景下这套模型是否具备持续进化的能力十分关键。研究团队采用“基座模型+分布式强化学习”模式,让机器人能在真实环境中不断学习、持续进化,真正适配实际应用中的复杂需求。
![]()
依托Genie Studio开发平台,整个系统构建起了面向真实世界的闭环学习能力:通过云端与多台机器人的协同联动,不断采集机器人与环境的交互数据,再进行在线后训练,让模型在真实场景中实时优化,这一点完全区别于依赖离线数据或仿真环境做“纸上谈兵”的训练。对机器人来说,每一次任务执行,都是一次数据积累;每一次环境反馈,都是一次能力升级。
从官方反馈的数据来看,在工程与算法的协同优化下,这套体系已经具备了规模化运行的实力,能够支持千台级机器人的调度与同步训练,训练效率相比以往提升了约10倍;在工业任务中,实现了分钟级收敛,任务成功率提升2-4倍,同时对数据的需求降低了50%以上,大幅降低了落地成本。
![]()
通过“预训练+后训练+数据闭环”的一套体系,GO-2变成了一个能够扎根真实世界,持续学习、不断进化,真正能创造价值的生产力系统。
07.
迈向具身Agent:长期记忆补齐智能最后一环
在GO-2的基础上,智元正在进一步探索完整的具身智能系统架构。当机器人已经能够稳定行动之后,它能不能记住过往的经验,并且在实践中不断变得更聪明?
![]()
围绕这个方向,智元在今年3月率先推出了OpenClaw记忆系统(arXiv:https://arxiv.org/abs/2603.11558),这是一个面向长周期机器人操作任务的智能体框架,统一数据收集、策略学习与任务执行全流程,解决传统视觉-语言-动作(VLA)系统在长周期任务中依赖人工、易出错、扩展性差的问题。
![]()
框架以视觉-语言模型(VLM)为元控制器,通过上下文学习与思维链推理,结合结构化记忆完成环境感知、任务规划与技能调度。核心创新是纠缠动作对(EAP),为每个操作策略配对正向执行与逆向恢复行为,形成自复位循环,让机器人无需人工干预即可持续采集在线数据,大幅降低人力成本。
OpenClaw框架在真实机器人平台验证,长周期任务成功率较基线提升25%,数据收集人力投入减少53.7%,子任务策略经迭代数据学习后成功率明显提升。
有了这个框架,机器人可以记录下每次交互的经验,积累各类操作技能,遇到新任务时,还能直接复用已经掌握的知识,不用再从零开始学习。
![]()
当动作推理、分层执行与长期记忆真正结合,机器人将逐步具备真正的具身Agent能力:感知世界、推理逻辑、执行动作、记住经验、再优化行动,一个完整的智能闭环正在慢慢形成。而这,也将成为下一代具身基础模型的重要发展方向。
08.
结语与未来:
智元 GO-2 的发布,推动具身智能迈向推理与执行协同的新阶段。当机器人具备感知、理解、物理交互与持续进化能力,具身智能规模化落地的进程将进一步加快。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.