![]()
作者:彭堃方
编辑:吕鑫燚
出品:具身研习社
6 月 28 日,智元 In-Cite AGIBOT WORLD 开发者日落地上海,释放出一个关键信号:具身智能正在开发者端建立起全栈闭环。
今年具身智能产业热词很多,背后可以凝练成三条主线:模型、数据、评测。模型决定机器人能不能理解世界、规划动作和泛化;数据决定模型是否见过足够多真实场景和长尾交互;评测决定能力能不能被稳定验证,并在下一轮训练中变成反馈。
这次活动以智元 Genie 和觅蜂全栈产品为核心技术基底,集中呈现 AGIBOT WORLD 数据集、Genie Envisioner-Sim 2.0 世界模型、Genie Sim 3.0 仿真平台、GO-2 具身大模型、GDK 开发套件、Genie Studio 等一整套技术链路。现场还设置真机体验区和项目展示模块,让开发者看到模型、数据、仿真、开发工具和真实机器人之间的连接方式。
过去很多企业更习惯发布单点能力,但智元这次开发者日强调的是全栈开放和开发者共建:数据从哪里来,模型如何训练,仿真如何验证,能力如何评测,最终又如何回到本体开发。
这背后有两个关键。其一,智元本身需要有足够完整的技术栈,才办得起这样一场覆盖模型、数据、仿真、评测、开发工具和真机体验的开发者日。其二,它也释放出一个明确的生态信号:具身智能不可能只靠封闭体系往前推,必须与技术一线、开发者社区和行业前沿保持更高频的交互。
由此来看,这场开发者日真正想讲的,是智元 Genie+觅蜂全栈技术体系如何形成一个面向开发者的开放闭环。这才是智元这场活动在具身智能产业的刻度价值。
![]()
世界模型是今年具身智能绕不开的方向。机器人在真实世界中试错成本高,VLA 虽然已经把视觉、语言和动作连起来,但在长时序任务、复杂交互和失败复盘中,仍然需要一个可以提前预测、回放和评估的虚拟经验场。
智元在活动中展示的 Genie Envisioner-Sim 2.0,也就是 GE-Sim 2.0,正是围绕这一需求展开。它是一款面向机器人操作场景的全功能视频世界仿真器,相关技术成果拿下CVPR 2026 WorldArena Challenge 世界模型赛道冠军。相比一般视频生成模型,GE-Sim 2.0 更强调机器人研发所需要的能力:长时序稳定生成、多视角高一致性渲染、机器人本体状态输出、内置自动化奖励评测、近实时推理和低幻觉生成。
这些能力让 GE-Sim 2.0 不只是生成一个逼真的未来视频,而是可以服务训练、验证、策略学习和评测反馈。它能够生成主视角、左右手腕视角等多视角视频,也能输出关节角度、夹爪状态等本体状态信息;内置的 World Judge 奖励模型,还可以根据自然语言任务指令自动判断任务完成度,并输出奖励信号。这意味着世界模型可以参与策略学习过程,帮助判断动作有没有完成,失败发生在哪里,下一轮策略该如何调整。
因此,智元讲 GE-Sim 2.0,重点不是单独证明模型有多强,而是展示世界模型如何嵌入 AGIBOT WORLD 数据集、Genie Sim 仿真平台、Open Session 评测体系和 GDK 开发工具之中。模型能力只有进入真实开发流程,才会从技术成果变成工程工具。世界模型如果能成为数据增强工具、自动化评测环境和策略学习环境,就会进一步成为具身智能研发的基础模块。
![]()
模型能力的来源,最终还是数据。具身数据不只是“看见”,还包含动作、力、触觉、关节状态、空间位置、任务过程和失败样本。真正稀缺的,是能够支撑机器人能力迭代的高质量、多模态、可训练、可验证数据。
智元 AGIBOT WORLD 开源真机数据集,承担的是真实世界样本底座。该数据集于 2024 年 12 月发布,总时长 2976.4 小时,覆盖 217 项具体任务、87 种技能、3000 余种物品,横跨五大领域的 100 余个真实场景。更重要的是,它全部来自开放真实环境,覆盖精细操作、超长程任务、空间移动、双臂协同、多机 / 人机协作等真实任务矩阵。
真机数据集只是起点。觅蜂 MEgo Engine 承担的是数据基础设施角色,以“见过—做过—做对”三阶闭环为核心,并提供全链路自动化数据基建、Retarget 质量门控、三段式分层训练范式和可验证自动迭代数据飞轮。
同时,Genie Sim 3.0 把仿真数据放进这条数据链路。它是一站式开源仿真平台,可以提供环境搭建、数据采集、自动化评测全链路工具;依托自研空间世界模型 Genie Sim World,仅凭文字或图片输入即可分钟级生成数字孪生高保真仿真场景,并同步输出 RGB、深度、激光雷达等多模态仿真数据。智元给出的验证结果显示,使用 3 倍规模仿真数据训练的机器人模型,真机表现优于纯真机数据训练效果。
所以,智元这次讲数据,重点不是单个数据集规模,而是把真机数据、仿真数据、人类行为数据和数据闭环放到一起,让开发者既能拿到真实世界样本,也能通过仿真和数据基础设施完成扩展、清洗、质检、转换和回流。
![]()
模型和数据之后,评测成为第三个关键环节。
具身智能行业越来越需要统一的能力坐标。很多机器人 Demo 看起来都能完成任务,但任务难度、环境变量、操作精度、失败率、鲁棒性并不统一。行业内的自说自话、自卖自夸现象已经“乱花渐欲迷人眼”,如果没有标准评测,这些问题永远在公关稿里。
智元的 Genie Sim Benchmark,承担的是标准化评测体系的角色。它从指令理解、空间推理、操作执行、扰动鲁棒性四大维度考核机器人能力,并适配 ACoT-VLA、π、GR00T 等主流具身模型。
这四个维度,正好对应当前具身模型最常被追问的能力。指令理解考验模型能不能把自然语言转成可执行动作;空间推理考验模型能不能理解物体位置、顺序、关系和场景结构;操作执行考验模型能不能完成分拣、码放、取放、插拔、折叠等真实动作;扰动鲁棒性考验模型在光照、背景、相机噪声、物体变化、指令变化等不稳定条件下的表现。
评测能否成立,关键还在仿真与真机的一致性。过去行业对仿真评测最大的担心,就是仿真里跑得好,不代表真机能跑得好。智元的验证结果显示,仿真环境与真实真机模型成功率相关性达到 89.5%,仿真与真实评测误差小于 10%。这让仿真评测具备了更强的工程参考价值,可以成为真机测试前的低成本筛选器。
![]()
![]()
Genie Sim - Sim2Real实验对比
在这个基础上,AGIBOT World Challenge Open Session 被推到了开发者面前。
Open Session是智元发起的常态化具身智能仿真评测平台,基于 Genie Sim Benchmark 构建,面向全球开发者全年开放,实时更新排名。平台目前提供 4 个榜单、40 余个高保真仿真评测任务,后续还会持续更新。AGIBOT World Challenge 已经连续两届与国际顶级学术会议联合举办赛事,分别覆盖 2025 IROS 和 2026 ICRA,并积累了千人级参赛规模。
AGIBOT WORLD CHALLENGE Open Session 仿真评测平台内测开启:打造7×24小时开放的具身智能评测平台
![]()
现在,智元把这套赛事和评测能力进一步常态化。开发者可随时提交模型、获取评测报告、追踪能力变化。平台预置主流基座模型基线成绩,提交后即可获得与业界标杆的横向对比。全部评测算力由平台提供,开发者无需自备环境和算力,注册到首次提交约 5 分钟,30 分钟即可完成仿真评测。
Open Session 的意义,不只是“打榜”。它更像是智元面向全球开发者开放的一套在线评测基础设施。
首先,它降低了参与门槛。具身智能的评测过去很容易被硬件、场地、工程环境卡住。Open Session 把评测变成在线服务,让开发者能够以更低成本进入具身智能评测体系。
其次,它提供横向对比。平台内置主流模型基线成绩,提交后可以获得多维能力雷达图、逐任务成功率对比,模型优势和短板一目了然。过去很多模型只能在各自任务里自证,现在可以在同一任务、同一环境、同一指标下比较。
更重要的是,它让评测变成反馈。Open Session 目前设置 Instruction、Robust、Spatial、Manipulation 四大评测榜单。Instruction 覆盖形状、大小、颜色、逻辑推理等 10 类自然语言指令理解任务;Robust 设计光照变化、背景替换、指令泛化、相机噪声、遮挡、外参偏移、夹爪切换、控制延迟等 10 类真实工况扰动;Manipulation 涵盖开门、持握、倾倒、铲取、清理桌面、分拣等真实场景操作技能;Spatial 则通过相对位置抓取、排序、叠放等任务评估空间智能。
![]()
![]()
这些榜单不只是给模型排序,也能帮助开发者定位问题。模型在指令跟随上掉分,可能说明语言与行为对齐不足;在Robust 榜单中表现不稳定,可能需要补充更多扰动数据和域随机化训练;在 Manipulation 榜单中失败,则可能暴露操作策略、控制精度或长程任务组合能力短板。评测越细,反馈越具体,模型迭代也越有方向。
因此,Open Session 是这次开发者日中非常关键的一环。它把一次性赛事延伸为常态化开发者平台,也把智元的仿真能力、评测能力和开发者生态连接起来。开发者不必先拥有完整机器人系统,也不必自己搭建复杂评测环境,就可以把模型放到标准化仿真平台里,与主流模型横向比较,再把结果用于下一轮迭代。
对智元而言,Open Session 也是全栈生态的外部接口。AGIBOT WORLD 数据集提供真实样本,Genie Sim 提供仿真环境,Genie Sim Benchmark 提供评测标准,Open Session 则把这些能力开放给开发者和共建伙伴。它把开发者从“观看活动的人”变成“参与技术迭代的人”。
![]()
模型、数据、评测构成了具身智能能力增长的三条主线,但它们最终都要回到机器人本体。
具身智能的开发难点不只在模型本身,还在模型如何接入机器人,如何从仿真迁移到真机,如何在真实本体上稳定执行。模型和身体之间,长期缺一层足够标准化的工程连接。
在 AGIBOT WORLD 开发者日上,GDK 被定位为 Genie 机器人的全栈开发底座,覆盖建图导航、多模态感知、运动控制、VLA 一体化、强化学习策略训练与真机 RL 部署等模块,并通过标准化统一接口,实现仿真环境到真实机器人的平滑迁移与无缝切换。
GDK 的价值,在于通过统一接口和开发范式,压缩仿真、训练、部署之间的割裂,把复杂的机器人开发环节封装成开发者可以调用的能力。世界模型、仿真平台、数据集、MEgo Engine 和 Open Session 分别解决训练、数据和评测问题;GDK 则把这些能力接回机器人本体,最终把“能训练”“能评测”推向“能部署”。
开发者共建
正在成为具身智能平台型企业的新命题
过去,大家喜欢证明“能让机器人做成某件事”。下一阶段,平台型企业要回答的问题会是:能不能让更多开发者、更低成本、更可验证地把机器人能力做出来。
这是智元举办这场开发者日的深层含义。它不仅在展示 Genie+觅蜂的全栈能力,也在向技术一线和开发者社区发出共建邀请。具身智能的产业化不会只发生在某一家公司的封闭系统里,它需要模型团队、数据团队、仿真平台、本体开发者、学术社区和产业场景共同参与。
开发者日办得起来,靠的是全栈技术能力;办给谁,指向的是智元对开发者生态的重视。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.