重磅！智元GO-2基座模型发布：具身智能跨过“知行合一”关键门槛|轨迹|动作|机器人|大模型

重磅！智元GO-2基座模型发布：具身智能跨过“知行合一”关键门槛

分享至

当一句“把杯子拿过来”下达给机器人，它能听懂指令、识别物体、规划路径，却常在执行瞬间动作偏移、抓取失败。长期困扰具身智能领域的语义与运动衔接不足问题，让高层推理与底层执行相互割裂，最终导致机器人“想得明白，却做不到位”。

核心原因在于，语义理解与运动控制之间，缺少一套稳定、泛化、鲁棒的闭环映射框架。

4月6日，智元机器人正式推出新一代具身智能基座大模型Genie Operator-2（GO-2），以统一架构打通从逻辑推理到精准动作的执行闭环，依托数万小时训练数据与架构创新，在多项机器人基准测试中取得行业领先成绩。

01.

迭代升级：GO-2 补齐规划与执行断层，加速场景落地

2025年3月，智元推出GO-1基座模型，聚焦解决具身智能三大痛点：语义与运动脱节、泛化能力不足、落地难度高。基于ViLLA架构，GO-1实现视觉、语言、动作的统一建模，通过 VLM 多模态理解层、Latent Planner隐式规划器与Action Expert动作专家协同，完成 “理解-规划-执行”闭环，让机器人动作生成更稳定可靠。

搭配Genie Studio一站式开发平台，GO-1覆盖数据采集至真机部署全流程，部署效率较传统方案提升2-3倍，兼容通用数据格式，降低开发者上手与二次开发成本。该模型先后获IROS最佳论文提名、机器人顶刊TRO接收、世界人工智能大会SAIL之星等荣誉，已深度集成至Genie Studio平台，并完成真实场景规模化落地验证。

GO-1让机器人具备可靠的理解能力，能听懂指令、识别场景、自主规划任务流程。但进入复杂真实环境后，机器人虽能输出合理规划，却难以保证动作精准落地。

举个简单的例子，让机器人整理厨房，它的逻辑很清晰：先从水池取出碗碟，放进洗碗机，再启动程序。理论上流程毫无问题，但实际操作中，可能因为视觉误差抓偏了碗沿，或者转身时手臂轨迹稍有偏移，最终导致碗碟掉落。

问题不在于规划本身，而在于规划与执行之间存在衔接断层，这也是行业长期存在的语义 - 运动衔接难题。传统 VLA 模型链路为：高层语义推理→抽象表示→控制系统→机器人动作，高层抽象指令与真实机器人动作存在偏差，执行阶段控制模块易脱离规划，直接依据视觉信息生成动作，导致长程任务误差累积、动作偏离计划、系统稳定性下降。

GO-2 模型聚焦解决规划到执行的衔接问题，让机器人不仅能 “看懂、听懂”，更能稳定、可靠地完成物理操作，实现知行合一。

02.

两大核心架构：支撑机器人稳定执行复杂动作

要让机器人稳定执行任务，需解决两大关键：生成可落地的动作规划、在真实环境中稳定执行规划。GO-2 围绕这两点构建完整架构：通过动作思维链完成高层动作推理，通过异步双系统保障稳定执行。

03.

动作思维链：先推理，再执行

传统模型多直接生成动作，GO-2 采用Action Chain-of-Thought（动作思维链），在动作空间完成前置推理（论文地址：https://arxiv.org/abs/2601.11404）。机器人先确定高层动作序列，搭建宏观行为路径，再逐层拆解为可执行步骤，贴近人类动作规划逻辑。

ACoT-VLA 架构由显式动作推理器（EAR）与隐式动作推理器（IAR）互补组成。EAR为轻量 Transformer，输入视觉观测与语言指令后，通过流匹配生成参考动作轨迹，提供可执行运动线索；IAR从VLM 隐层特征中提取视觉可及性、动作语义等潜在先验，补充隐性行为规律。

两者输出通过交叉注意力融合，送入动作头完成去噪，生成流畅精准动作。训练阶段采用真实参考轨迹优化，推理阶段自主生成动作，实现自条件生成。该技术相关论文《ACoT-VLA》已于 2026年3月9日被CVPR 2026接收。

04.

异步双系统：低频规划，高频精准跟随

仅靠高层动作规划无法应对真实环境扰动，传感器噪声、接触状态变化与场景干扰都会导致执行偏差。GO-2 采用异步双系统架构，以解耦节奏实现规划与执行的精准匹配，机器人按“慢决策、快执行”协同工作，稳定将高层规划转化为真实动作。

该系统由低频语义规划模块与高频动作跟随模块协同构成。语义规划模块以低频率运行，负责生成结构化高层动作序列，从宏观意图逐层拆解为分级子动作指令，提供稳定执行导向；动作跟随模块以高频率运行，实时接收规划指令并结合现场观测信息生成控制信号，在扰动中动态修正姿态、力度与轨迹，始终贴合规划路径。

训练阶段引入强制教学（teacher forcing）机制，以真实高层动作序列为条件并注入规划噪声，让模型在非完美规划下仍可稳定执行，提升部署鲁棒性。

最终，这套“低频规划 + 高频跟随”设计，让机器人兼顾任务稳定性与精细控制能力，彻底打通规划到执行的关键链路。

05.

四项Benchmark全线第一！GO-2正在定义下一代具身智能标准

在全新架构的支撑下，GO-2在多个主流具身智能基准测试（benchmark）中，均取得了全面SOTA（现有最佳技术）成绩，在任务成功率、环境鲁棒性以及跨场景泛化能力上，都明显领先于当前主流模型，比如π05、NVIDIAGR00T。

具体来看各基准测试的表现，亮点十分突出：

• LIBERO Benchmark：GO-2在Spatial（空间）、Object（物体）、Goal（目标）与Long（长程）四类任务中，均拿下排名第一的好成绩，平均成功率高达98.5%，展现出极强的基础任务执行能力。

• LIBERO-Plus Benchmark：这个测试专门设置了包含相机、光照、背景和噪声等多种环境扰动的场景，GO-2在零样本测试中，平均成功率达到86.6%，远超目前已有的其他方法，充分体现出超强的环境适应和泛化能力。

• VLA BenchBenchmark：在跨类别与纹理泛化测试中，GO-2平均得分达到47.4，尤其是在纹理泛化任务上，表现远优于其他同类模型，进一步验证了其跨场景适配能力。

• Genie Sim3.0 Benchmark(Sim-to-Real)：这是面向真实世界迁移的评测，GO-2仅使用仿真数据训练，在真实环境测试中就取得了82.9%的平均成功率，零样本跨域迁移能力表现出色，明显优于π0.5的77.5%。

06.

从静态模型到持续进化的生产力系统 GO-2模型构建规模化落地闭环

在实验室场景的任务执行能力表现出色，但真实场景下这套模型是否具备持续进化的能力十分关键。研究团队采用“基座模型+分布式强化学习”模式，让机器人能在真实环境中不断学习、持续进化，真正适配实际应用中的复杂需求。

依托Genie Studio开发平台，整个系统构建起了面向真实世界的闭环学习能力：通过云端与多台机器人的协同联动，不断采集机器人与环境的交互数据，再进行在线后训练，让模型在真实场景中实时优化，这一点完全区别于依赖离线数据或仿真环境做“纸上谈兵”的训练。对机器人来说，每一次任务执行，都是一次数据积累；每一次环境反馈，都是一次能力升级。

从官方反馈的数据来看，在工程与算法的协同优化下，这套体系已经具备了规模化运行的实力，能够支持千台级机器人的调度与同步训练，训练效率相比以往提升了约10倍；在工业任务中，实现了分钟级收敛，任务成功率提升2-4倍，同时对数据的需求降低了50%以上，大幅降低了落地成本。

通过“预训练+后训练+数据闭环”的一套体系，GO-2变成了一个能够扎根真实世界，持续学习、不断进化，真正能创造价值的生产力系统。

07.

迈向具身Agent：长期记忆补齐智能最后一环

在GO-2的基础上，智元正在进一步探索完整的具身智能系统架构。当机器人已经能够稳定行动之后，它能不能记住过往的经验，并且在实践中不断变得更聪明？

围绕这个方向，智元在今年3月率先推出了OpenClaw记忆系统（arXiv:https://arxiv.org/abs/2603.11558），这是一个面向长周期机器人操作任务的智能体框架，统一数据收集、策略学习与任务执行全流程，解决传统视觉-语言-动作（VLA）系统在长周期任务中依赖人工、易出错、扩展性差的问题。

框架以视觉-语言模型（VLM）为元控制器，通过上下文学习与思维链推理，结合结构化记忆完成环境感知、任务规划与技能调度。核心创新是纠缠动作对（EAP），为每个操作策略配对正向执行与逆向恢复行为，形成自复位循环，让机器人无需人工干预即可持续采集在线数据，大幅降低人力成本。

OpenClaw框架在真实机器人平台验证，长周期任务成功率较基线提升25%，数据收集人力投入减少53.7%，子任务策略经迭代数据学习后成功率明显提升。

有了这个框架，机器人可以记录下每次交互的经验，积累各类操作技能，遇到新任务时，还能直接复用已经掌握的知识，不用再从零开始学习。

当动作推理、分层执行与长期记忆真正结合，机器人将逐步具备真正的具身Agent能力：感知世界、推理逻辑、执行动作、记住经验、再优化行动，一个完整的智能闭环正在慢慢形成。而这，也将成为下一代具身基础模型的重要发展方向。

08.

结语与未来：

智元 GO-2 的发布，推动具身智能迈向推理与执行协同的新阶段。当机器人具备感知、理解、物理交互与持续进化能力，具身智能规模化落地的进程将进一步加快。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.