智元用模型、数据、评测三条主线，串起开发者友好的全栈闭环|大模型

分享至

作者：彭堃方

编辑：吕鑫燚

出品：具身研习社

6 月 28 日，智元 In-Cite AGIBOT WORLD 开发者日落地上海，释放出一个关键信号：具身智能正在开发者端建立起全栈闭环。

今年具身智能产业热词很多，背后可以凝练成三条主线：模型、数据、评测。模型决定机器人能不能理解世界、规划动作和泛化；数据决定模型是否见过足够多真实场景和长尾交互；评测决定能力能不能被稳定验证，并在下一轮训练中变成反馈。

这次活动以智元 Genie 和觅蜂全栈产品为核心技术基底，集中呈现 AGIBOT WORLD 数据集、Genie Envisioner-Sim 2.0 世界模型、Genie Sim 3.0 仿真平台、GO-2 具身大模型、GDK 开发套件、Genie Studio 等一整套技术链路。现场还设置真机体验区和项目展示模块，让开发者看到模型、数据、仿真、开发工具和真实机器人之间的连接方式。

过去很多企业更习惯发布单点能力，但智元这次开发者日强调的是全栈开放和开发者共建：数据从哪里来，模型如何训练，仿真如何验证，能力如何评测，最终又如何回到本体开发。

这背后有两个关键。其一，智元本身需要有足够完整的技术栈，才办得起这样一场覆盖模型、数据、仿真、评测、开发工具和真机体验的开发者日。其二，它也释放出一个明确的生态信号：具身智能不可能只靠封闭体系往前推，必须与技术一线、开发者社区和行业前沿保持更高频的交互。

由此来看，这场开发者日真正想讲的，是智元 Genie+觅蜂全栈技术体系如何形成一个面向开发者的开放闭环。这才是智元这场活动在具身智能产业的刻度价值。

世界模型是今年具身智能绕不开的方向。机器人在真实世界中试错成本高，VLA 虽然已经把视觉、语言和动作连起来，但在长时序任务、复杂交互和失败复盘中，仍然需要一个可以提前预测、回放和评估的虚拟经验场。

智元在活动中展示的 Genie Envisioner-Sim 2.0，也就是 GE-Sim 2.0，正是围绕这一需求展开。它是一款面向机器人操作场景的全功能视频世界仿真器，相关技术成果拿下CVPR 2026 WorldArena Challenge 世界模型赛道冠军。相比一般视频生成模型，GE-Sim 2.0 更强调机器人研发所需要的能力：长时序稳定生成、多视角高一致性渲染、机器人本体状态输出、内置自动化奖励评测、近实时推理和低幻觉生成。

这些能力让 GE-Sim 2.0 不只是生成一个逼真的未来视频，而是可以服务训练、验证、策略学习和评测反馈。它能够生成主视角、左右手腕视角等多视角视频，也能输出关节角度、夹爪状态等本体状态信息；内置的 World Judge 奖励模型，还可以根据自然语言任务指令自动判断任务完成度，并输出奖励信号。这意味着世界模型可以参与策略学习过程，帮助判断动作有没有完成，失败发生在哪里，下一轮策略该如何调整。

因此，智元讲 GE-Sim 2.0，重点不是单独证明模型有多强，而是展示世界模型如何嵌入 AGIBOT WORLD 数据集、Genie Sim 仿真平台、Open Session 评测体系和 GDK 开发工具之中。模型能力只有进入真实开发流程，才会从技术成果变成工程工具。世界模型如果能成为数据增强工具、自动化评测环境和策略学习环境，就会进一步成为具身智能研发的基础模块。

模型能力的来源，最终还是数据。具身数据不只是“看见”，还包含动作、力、触觉、关节状态、空间位置、任务过程和失败样本。真正稀缺的，是能够支撑机器人能力迭代的高质量、多模态、可训练、可验证数据。

智元 AGIBOT WORLD 开源真机数据集，承担的是真实世界样本底座。该数据集于 2024 年 12 月发布，总时长 2976.4 小时，覆盖 217 项具体任务、87 种技能、3000 余种物品，横跨五大领域的 100 余个真实场景。更重要的是，它全部来自开放真实环境，覆盖精细操作、超长程任务、空间移动、双臂协同、多机 / 人机协作等真实任务矩阵。

真机数据集只是起点。觅蜂 MEgo Engine 承担的是数据基础设施角色，以“见过—做过—做对”三阶闭环为核心，并提供全链路自动化数据基建、Retarget 质量门控、三段式分层训练范式和可验证自动迭代数据飞轮。

同时，Genie Sim 3.0 把仿真数据放进这条数据链路。它是一站式开源仿真平台，可以提供环境搭建、数据采集、自动化评测全链路工具；依托自研空间世界模型 Genie Sim World，仅凭文字或图片输入即可分钟级生成数字孪生高保真仿真场景，并同步输出 RGB、深度、激光雷达等多模态仿真数据。智元给出的验证结果显示，使用 3 倍规模仿真数据训练的机器人模型，真机表现优于纯真机数据训练效果。

所以，智元这次讲数据，重点不是单个数据集规模，而是把真机数据、仿真数据、人类行为数据和数据闭环放到一起，让开发者既能拿到真实世界样本，也能通过仿真和数据基础设施完成扩展、清洗、质检、转换和回流。

模型和数据之后，评测成为第三个关键环节。

具身智能行业越来越需要统一的能力坐标。很多机器人 Demo 看起来都能完成任务，但任务难度、环境变量、操作精度、失败率、鲁棒性并不统一。行业内的自说自话、自卖自夸现象已经“乱花渐欲迷人眼”，如果没有标准评测，这些问题永远在公关稿里。

智元的 Genie Sim Benchmark，承担的是标准化评测体系的角色。它从指令理解、空间推理、操作执行、扰动鲁棒性四大维度考核机器人能力，并适配 ACoT-VLA、π、GR00T 等主流具身模型。

这四个维度，正好对应当前具身模型最常被追问的能力。指令理解考验模型能不能把自然语言转成可执行动作；空间推理考验模型能不能理解物体位置、顺序、关系和场景结构；操作执行考验模型能不能完成分拣、码放、取放、插拔、折叠等真实动作；扰动鲁棒性考验模型在光照、背景、相机噪声、物体变化、指令变化等不稳定条件下的表现。

评测能否成立，关键还在仿真与真机的一致性。过去行业对仿真评测最大的担心，就是仿真里跑得好，不代表真机能跑得好。智元的验证结果显示，仿真环境与真实真机模型成功率相关性达到 89.5%，仿真与真实评测误差小于 10%。这让仿真评测具备了更强的工程参考价值，可以成为真机测试前的低成本筛选器。

Genie Sim - Sim2Real实验对比

在这个基础上，AGIBOT World Challenge Open Session 被推到了开发者面前。

Open Session是智元发起的常态化具身智能仿真评测平台，基于 Genie Sim Benchmark 构建，面向全球开发者全年开放，实时更新排名。平台目前提供 4 个榜单、40 余个高保真仿真评测任务，后续还会持续更新。AGIBOT World Challenge 已经连续两届与国际顶级学术会议联合举办赛事，分别覆盖 2025 IROS 和 2026 ICRA，并积累了千人级参赛规模。

AGIBOT WORLD CHALLENGE Open Session 仿真评测平台内测开启：打造7×24小时开放的具身智能评测平台

现在，智元把这套赛事和评测能力进一步常态化。开发者可随时提交模型、获取评测报告、追踪能力变化。平台预置主流基座模型基线成绩，提交后即可获得与业界标杆的横向对比。全部评测算力由平台提供，开发者无需自备环境和算力，注册到首次提交约 5 分钟，30 分钟即可完成仿真评测。

Open Session 的意义，不只是“打榜”。它更像是智元面向全球开发者开放的一套在线评测基础设施。

首先，它降低了参与门槛。具身智能的评测过去很容易被硬件、场地、工程环境卡住。Open Session 把评测变成在线服务，让开发者能够以更低成本进入具身智能评测体系。

其次，它提供横向对比。平台内置主流模型基线成绩，提交后可以获得多维能力雷达图、逐任务成功率对比，模型优势和短板一目了然。过去很多模型只能在各自任务里自证，现在可以在同一任务、同一环境、同一指标下比较。

更重要的是，它让评测变成反馈。Open Session 目前设置 Instruction、Robust、Spatial、Manipulation 四大评测榜单。Instruction 覆盖形状、大小、颜色、逻辑推理等 10 类自然语言指令理解任务；Robust 设计光照变化、背景替换、指令泛化、相机噪声、遮挡、外参偏移、夹爪切换、控制延迟等 10 类真实工况扰动；Manipulation 涵盖开门、持握、倾倒、铲取、清理桌面、分拣等真实场景操作技能；Spatial 则通过相对位置抓取、排序、叠放等任务评估空间智能。

这些榜单不只是给模型排序，也能帮助开发者定位问题。模型在指令跟随上掉分，可能说明语言与行为对齐不足；在Robust 榜单中表现不稳定，可能需要补充更多扰动数据和域随机化训练；在 Manipulation 榜单中失败，则可能暴露操作策略、控制精度或长程任务组合能力短板。评测越细，反馈越具体，模型迭代也越有方向。

因此，Open Session 是这次开发者日中非常关键的一环。它把一次性赛事延伸为常态化开发者平台，也把智元的仿真能力、评测能力和开发者生态连接起来。开发者不必先拥有完整机器人系统，也不必自己搭建复杂评测环境，就可以把模型放到标准化仿真平台里，与主流模型横向比较，再把结果用于下一轮迭代。

对智元而言，Open Session 也是全栈生态的外部接口。AGIBOT WORLD 数据集提供真实样本，Genie Sim 提供仿真环境，Genie Sim Benchmark 提供评测标准，Open Session 则把这些能力开放给开发者和共建伙伴。它把开发者从“观看活动的人”变成“参与技术迭代的人”。

模型、数据、评测构成了具身智能能力增长的三条主线，但它们最终都要回到机器人本体。

具身智能的开发难点不只在模型本身，还在模型如何接入机器人，如何从仿真迁移到真机，如何在真实本体上稳定执行。模型和身体之间，长期缺一层足够标准化的工程连接。

在 AGIBOT WORLD 开发者日上，GDK 被定位为 Genie 机器人的全栈开发底座，覆盖建图导航、多模态感知、运动控制、VLA 一体化、强化学习策略训练与真机 RL 部署等模块，并通过标准化统一接口，实现仿真环境到真实机器人的平滑迁移与无缝切换。

GDK 的价值，在于通过统一接口和开发范式，压缩仿真、训练、部署之间的割裂，把复杂的机器人开发环节封装成开发者可以调用的能力。世界模型、仿真平台、数据集、MEgo Engine 和 Open Session 分别解决训练、数据和评测问题；GDK 则把这些能力接回机器人本体，最终把“能训练”“能评测”推向“能部署”。

开发者共建

正在成为具身智能平台型企业的新命题

过去，大家喜欢证明“能让机器人做成某件事”。下一阶段，平台型企业要回答的问题会是：能不能让更多开发者、更低成本、更可验证地把机器人能力做出来。

这是智元举办这场开发者日的深层含义。它不仅在展示 Genie+觅蜂的全栈能力，也在向技术一线和开发者社区发出共建邀请。具身智能的产业化不会只发生在某一家公司的封闭系统里，它需要模型团队、数据团队、仿真平台、本体开发者、学术社区和产业场景共同参与。

开发者日办得起来，靠的是全栈技术能力；办给谁，指向的是智元对开发者生态的重视。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.