网易首页 > 网易号 > 正文 申请入驻

智元发布新一代具身基座大模型GO-2,让机器人“知行合一”

0
分享至

IT之家 4 月 9 日消息,智元机器人今日发布了新一代具身基座大模型 Genie Operator-2(简称 GO-2)。该模型旨在解决机器人从“理解意图”到“稳定执行”之间的断层,在统一架构中打通逻辑推理与精准动作执行的链路。


据介绍,GO-2 引入“动作思维链”机制,模型不会直接输出控制信号,而是先生成一段高层动作序列作为任务的整体规划,描述行为的方向、结构与执行路径。复杂任务被拆解为有序的动作步骤,再通过异步双系统稳定执行。这一设计使机器人从“边看边做”转变为“想清楚再做”,降低执行偏差,提升行为稳定性。相关成果已被 CVPR 2026 接收。GO-2 在多个机器人基准测试中取得 SOTA 成绩。

IT之家附官方详细介绍如下:

当一个机器人站在你面前,你对它说一句:“把杯子拿过来。”它听懂了,也知道杯子是什么、在哪里,甚至已经在“脑海里”规划出一条看似完美的路径。可真正伸手去执行的那一刻,动作却常常偏离规划,无法稳定完成。 为什么会这样?过去很长一段时间里,机器人系统始终被困在一种深层割裂之中:高层语义与推理足够聪明,底层动态运动能力也已日趋成熟,像平衡、跑跳、空翻这类动作早已实现稳定流畅。但一旦进入真实场景、面向复杂任务、需要精准可靠地与物理世界交互时,从“理解意图”到“稳定完成”之间,依然隔着一道看不见的门槛。 机器人可以生成合理规划,却难以在真实扰动中稳定执行;可以“想得明白”,却未必“做得可靠”。这才是具身智能真正走向现实世界、走向实用化最核心的挑战。 今天,智元机器人正式发布新一代具身基座大模型 Genie Operator-2(以下简称 GO-2)。 GO-2 首次在统一架构中打通从逻辑推理到精准动作执行的“最后一公里”,结合数万小时的数据训练,在多个机器人基准测试中刷新行业 SOTA,让机器人从“黑盒摸索”迈向真正的“知行合一”。 01/ GO 系列的关键进化:从感知理解到动作执行 一年前,智元发布了 Genie Operator-1(简称 GO-1)基座模型,通过创新的 ViLLA 架构,首次实现了视觉-语言-动作的统一建模。那是一个里程碑式的突破 ——GO-1 获得了当年 IROS 最佳论文提名,被机器人顶级期刊 TRO 接收,荣获世界人工智能大会 SAIL 之星,并且已经内置到智元的一站式具身开发平台 Genie Studio 中,真正赋能给用户部署模型,在真实场景完成了大规模应用验证。 GO-1 让机器人学会了“理解”。它能看懂指令,能识别场景,能规划任务。 然而,当系统进入更加复杂的真实环境后,一个关键问题逐渐显现:机器人虽然能生成合理的规划,但动作并不总能严格按照规划执行。 想象一下,你让机器人帮你整理厨房。它明明知道要先把碗碟从水池取出,再放进洗碗机,最后启动程序。单看规划,一切完美无缺。可真正执行时,它可能因为微小的视觉偏差抓偏碗沿,或是转身时手臂轨迹偏离预设,最终导致碗碟滑落、任务失败。 这不是规划不够聪明,而是从“规划”到“执行”之间的断裂。其核心,正是机器人系统中长期存在的语义‑运动鸿沟(Semantic‑Actuation Gap)。 在传统具身模型中,链路往往是割裂的:高层语义推理 → 抽象指令 → 控制系统 → 机器人动作。高层模型输出的抽象信号,与真实世界所需的精细动作之间,仍隔着巨大落差。到了执行环节,控制模块常常绕过规划、直接依赖瞬时视觉生成动作,最终导致:长程任务误差不断累积、动作持续偏离规划、系统整体稳定性大幅下降。 而新一代基座模型 GO‑2 要做的,正是弥合这道鸿沟。GO‑2 的目标清晰而坚定:让机器人不只理解世界,更能稳定、可靠地作用于世界。02/ GO-2 的核心理念:让机器人真正“知行合一” 进一步把问题拆解来看,要让机器人真正做到知行合一,系统需要同时解决两个关键问题: 如何生成“可执行”的动作规划; 如何在真实环境中“稳定执行”该规划。 GO-2 围绕这一问题构建了一套完整架构:先通过动作思维链完成高层动作推理,再通过异步双系统稳定执行。 03 / 首创动作思维链:在动作空间推理规划 在传统方法中,模型通常直接从感知输入生成控制信号。这意味着“思考”和“执行”被压缩在同一个瞬间完成,缺乏明确的中间结构。模型既要理解任务,又要完成精细控制,往往难以兼顾。但人类的行为并不是这样发生的。投篮之前,我们会在脑海中预演出手的轨迹;倒水之前,会先想象水流的路径。动作并不是凭空产生,而是在内部形成一个清晰的过程之后自然展开。 GO-2 将这一过程显式化,引入了动作思维链 (Action Chain-of-Thought)。与其在语言或视觉空间中进行推理,再将结果转换为动作,GO-2 直接在动作空间中完成这一过程。模型不会立即输出控制信号,而是先生成一段高层动作序列,作为任务的整体规划。这一序列描述了行为的方向、结构以及执行路径,是一种可以直接被执行系统理解的中间表示。 通过这种方式,复杂任务被自然拆解为有序的动作步骤。执行过程不再依赖即时反应,而是建立在已经形成的结构化路径之上。机器人从“边看边做”转变为“想清楚再做”,执行偏差随之显著降低,整体行为也更加稳定。这一能力的提出,使得“推理”和“执行”之间不再存在明显断层,规划本身就已经具备了可执行性。这一成果也已被 AI 顶级会议 CVPR 2026 接收,成为具身智能领域的重要进展。 (论文地址:https://arxiv.org/abs/2601.11404) 04 / 异步双系统:让规划被稳定地执行 为了解决执行稳定性问题,GO-2 引入了一种异步双系统架构,将“规划”和“执行”拆分为两个不同节奏的模块,同时保持它们之间的紧密协同。其核心目标并不是简单地提高控制精度,而是确保高层规划在真实环境中能够被持续、稳定地跟随。 在这一架构中,动作思维链自然成为慢系统的一部分。慢系统以较低频率运行,负责生成结构化的高层动作序列。这些动作并不会直接展开为控制信号,而是以逐步细化的方式持续提供指导,从宏观动作到子动作,再到更细粒度的行为片段,形成一个具有层次结构的动作表示。通过这种方式,高层规划不再是一次性的结果,而是一个持续约束执行方向的“意图流”。 与之对应,快系统以更高频率运行。它持续接收来自慢系统的动作规划,并结合当前的视觉观测生成具体控制信号。在这一过程中,执行并不是对规划的简单复现,而是围绕规划进行实时对齐。系统需要不断应对环境变化,因此在跟随的同时持续进行局部修正与动态调整。例如,当桌面高度与预期不一致时,系统会自动调整手臂的下探幅度;当物体摩擦特性发生变化时,会实时调整抓取力度。这种连续修正,使执行始终贴合规划,而不是逐步偏离。 这种稳定跟随能力的关键,在于规划与执行之间的紧密对齐。在训练阶段,GO-2 引入了带噪声的强制教学 (teacher forcing) 机制,在训练执行模块时使用真实的高层动作序列作为条件,同时加入一定扰动,以模拟规划误差。这使得模型能够在“接近正确但不完美”的规划条件下依然保持稳定执行,从而在实际部署中具备更强的鲁棒性。 最终,这种低频规划与高频执行的组合,使机器人既能保持整体行为的一致性,又能够灵活应对局部变化。规划不再停留在“想法”,而是能够在动态环境中被持续兑现,从而真正实现按规划行事的能力。这一成果,也已被 AI 顶级会议 ACL 2026 接收。 (论文地址:https://libra-vla.github.io/) 05 / 性能表现:刷新行业 SOTA 当“思考”与“执行”真正被打通,带来的改变,并不仅仅是指标上的提升,而是系统行为方式的跃迁。在新的架构设计下,GO-2 在多个主流具身智能基准测试(benchmark)中取得了 全面 SOTA(现有最佳技术),在任务成功率、环境鲁棒性以及跨场景泛化能力上均显著领先当前主流模型 (如:π0.5、NVIDIA GR00T)。 LIBERO Benchmark:GO-2 模型在 Spatial、Object、Goal 与 Long 四类任务上均排名第一,平均成功率达到 98.5% LIBERO-Plus Benchmark:在包含相机、光照、背景和噪声等多种环境扰动的设置下,GO-2 零样本测试取得 86.6% 平均成功率,显著超过现有方法,表现出了超强的泛化能力。 VLABench Benchmark:在跨类别与纹理泛化测试中,GO-2 平均达到 47.4,特别是纹理泛化任务上显著优于其他方法。 Genie Sim 3.0 Benchmark (Sim-to-Real):在面向真实世界迁移的 Genie Sim 3.0 评测中,GO-2 展示了良好的零样本跨域迁移能力,在仅使用仿真数据训练的前提下,在真实环境测试中取得了 82.9% 的平均成功率,显著优于 π0.5 (77.5%)。 06 / 规模化落地:从模型能力到真实世界部署 GO-2 的价值,并不止于模型本身。 在 GO-2 的基础上,智元进一步打通模型能力与真实场景部署之间的闭环。通过“基座模型 + 分布式强化学习”的协同范式,让机器人在真实环境中持续学习、持续进化。 依托 Genie Studio 开发平台,系统构建了面向真实世界的闭环学习能力:通过云端与多机器人协同,不断采集交互数据并进行在线后训练,使模型在真实环境中持续优化,而非依赖离线数据或仿真。每一次执行,都是一次数据积累;每一次反馈,都是一次能力提升。 通过这一“预训练 + 后训练 + 数据闭环”的体系,GO-2 不再是静态模型,而是能够在真实世界中持续学习、不断进化的生产力系统。结语 具身智能的终极追求,是知行合一。 从 GO‑1 到 GO‑2,智元完成了一次从能力到价值的关键跃迁:从“理解世界”,走向真正作用于世界;从“偶尔成功”,走向持续稳定完成;从“单纯完成动作”,走向在物理世界中精准交互、稳定落地。 GO‑2 基座模型所做的,正是为具身智能打造真正会思考、可信赖、能落地的通用大脑,打破语义与动作的割裂,让规划与执行真正合一,让机器人的每一个动作,都能适配物理世界的复杂变量、稳定作用于真实场景。 它体现在精准的推理与规划中,体现在稳定可靠的执行里,更体现在从虚拟仿真到真实世界、从实验室验证研发态到产业落地部署态的实践中 —— 这份实践,从来不是单纯的动作运动,而是机器人与物理世界精准、可靠、可复用的交互。 我们希望,它不仅是一个模型,更是一个让机器人从“理解世界”,走向 “真正作用于世界”的里程碑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解气,电力院设计师大骂业主:你找鸡给你画图去啊!

解气,电力院设计师大骂业主:你找鸡给你画图去啊!

黯泉
2026-04-09 16:12:13
1938年老蒋制造黄河决堤,日军淹死数量惊人,真实情况你可能不信

1938年老蒋制造黄河决堤,日军淹死数量惊人,真实情况你可能不信

浩舞默画
2026-04-06 09:22:04
伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

黑翼天使
2026-04-05 02:01:32
重磅消息!4月两大证件发放,出行与养老金大变革!

重磅消息!4月两大证件发放,出行与养老金大变革!

什么都唠唠
2026-04-08 23:47:43
特朗普果然翻脸了,美国不承认停火方案,伊朗:不服就继续打

特朗普果然翻脸了,美国不承认停火方案,伊朗:不服就继续打

小小科普员
2026-04-09 17:25:05
英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

阿器谈史
2026-04-02 15:33:03
房企对年轻人买房存在重大误判

房企对年轻人买房存在重大误判

真叫卢俊
2026-04-08 10:10:59
罕见!董事长变总经理

罕见!董事长变总经理

21金融圈
2026-04-08 20:05:47
留给美国时间不多了,伊朗战争打完后,世界就只剩一个超级大国了

留给美国时间不多了,伊朗战争打完后,世界就只剩一个超级大国了

触摸史迹
2026-04-02 14:39:03
想买车的再等等,五大重磅新车即将在4月份上市,每款都有杀手锏

想买车的再等等,五大重磅新车即将在4月份上市,每款都有杀手锏

火星说车
2026-04-08 16:20:53
刘思齐晚年曾说:毛岸英入朝之前,曾反复问过毛主席一个问题

刘思齐晚年曾说:毛岸英入朝之前,曾反复问过毛主席一个问题

老谢谈史
2026-04-07 00:16:17
985女大学生嫁农民工,婚礼亲戚无一到场,生下双胞胎后崩溃发疯

985女大学生嫁农民工,婚礼亲戚无一到场,生下双胞胎后崩溃发疯

就一点
2026-04-07 16:02:35
北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

嘉琪Feel
2025-07-09 23:05:01
条条大路通罗马!不当明星的文章,在上海开饭店,女儿也为他宣传

条条大路通罗马!不当明星的文章,在上海开饭店,女儿也为他宣传

揽星河的笔记
2026-04-09 17:36:27
日本宣布已部署具备“对敌基地攻击能力”远程导弹,国防部回应!

日本宣布已部署具备“对敌基地攻击能力”远程导弹,国防部回应!

荷兰豆爱健康
2026-04-09 19:01:49
网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

罗纳尔说个球
2026-04-08 23:08:09
陈丽华离世,最让她魂牵梦绕的,既不是子女,也不是迟重瑞

陈丽华离世,最让她魂牵梦绕的,既不是子女,也不是迟重瑞

小光侃娱乐
2026-04-09 12:45:03
中方宣布好消息,又有贵客访华!四年来四次,西班牙首相目标明确

中方宣布好消息,又有贵客访华!四年来四次,西班牙首相目标明确

谛听骨语本尊
2026-04-09 19:19:45
震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

刀刃故事
2024-11-22 01:55:03
14.99万元,凯旋765 Moto2上市,地表最强三缸,张雪820RR有没有话说?

14.99万元,凯旋765 Moto2上市,地表最强三缸,张雪820RR有没有话说?

机车网
2026-04-08 21:20:16
2026-04-09 20:27:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
338273文章数 607120关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火首日,霍尔木兹仅有4艘船通过

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

手机
游戏
艺术
旅游
本地

手机要闻

苹果iOS 26.4.1发布:修复iCloud终端BUG,自动开启“失窃保护”

AI乙女,为什么越来越“难吃”了

艺术要闻

庞茂琨 2026油画写生新作

旅游要闻

春日打卡点+1!重现千年奇观“泉涌白沙”,济南做对了什么?

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版