网易首页 > 网易号 > 正文 申请入驻

智元机器人:发布行业首个机器人世界模型开源平台Genie Envisioner

0
分享至

智通财经APP获悉,智元机器人重磅推出面向真实世界机器人操控的统一世界模型平台 ---Genie Envisioner(GE)。 不同于传统“数据—训练—评估”割裂的流水线模式,GE将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构,使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。基于3000小时真机数据,GE-Act不仅在跨平台泛化和长时序任务执行上显著超越现有SOTA,更为具身智能打开了从视觉理解到动作执行的全新技术路径

01核心创新:

视觉中心的世界建模范式

GE的核心突破在于构建了基于世界模型的以视觉中心的建模范式。不同于主流VLA(Vision-Language-Action)方法依赖视觉-语言模型将视觉输入映射到语言空间进行间接建模,GE直接在视觉空间中建模机器人与环境的交互动态。这种方法完整保留了操控过程中的空间结构和时序演化信息,实现了对机器人-环境动态更精确、更直接的建模。这一视觉中心的建模范式带来了两个关键优势:

高效的跨本体泛化能力

基于强大的视觉空间预训练,GE-Act仅需极少量数据即可实现跨平台迁移。在Agilex Cobot Magic和Dual Franka等全新机器人平台上,GE-Act仅使用1小时(约250个演示)的遥操作数据就实现了高质量的任务执行。相比之下,即使是在多本体数据上有大规模预训练的π0和GR00T模型,在相同数据量下的表现也不如GE-Act。

这种高效泛化源于GE-Base在视觉空间中学习到的通用操控表征。通过直接建模视觉动态而非依赖语言抽象,模型能够捕捉到跨平台共享的底层物理规律和操控模式,从而实现快速适配。


长时序任务的精确执行能力

更重要的是,视觉中心建模赋予了GE强大的未来时空预测能力。通过在视觉空间中显式建模时序演化,GE-Act能够规划和执行需要长时序推理的复杂任务。

在折叠纸盒等超长步骤任务中,GE-Act展现出了远超现有SOTA方法的性能。以纸盒折叠为例,这项任务需要精确执行超过10个连续子步骤,每个步骤都依赖于前序动作的准确完成。GE-Act达到了76%的成功率,而专门针对柔性物体操控优化的π0仅为48%,UniVLA和GR00T则完全无法完成(0%成功率)。

这种长时序执行能力的提升不仅源于GE的视觉世界建模,同时也得益于我们创新设计的sparse memory模块。通过这样的模块设计,能够帮助机器人选择性地保留关键历史信息,从而在长时序任务中保持精确的上下文理解。通过预测未来的视觉状态,GE-Act能够"预见"动作的长期后果,从而生成更连贯、更稳定的操控序列。相比之下,基于语言空间的方法在长时序任务中容易出现误差累积和语义漂移。


02技术架构:三大核心组件

基于视觉中心建模理念,GE平台包含三个紧密集成的组件:

GE-Base:多视角视频世界基础模型

GE-Base是整个平台的核心基础,采用自回归视频生成框架,将输出分割为离散的视频块(video chunks),每块包含N帧。模型的关键创新在于其多视角生成能力和稀疏记忆机制。通过同时处理来自头部相机和双臂腕部相机的三路视角输入,GE-Base能够保持空间一致性并捕捉完整的操控场景。稀疏记忆机制通过随机采样历史帧来增强长时序推理能力,使模型能够在保持时序连贯性的同时处理长达数分钟的操控任务。


训练采用两阶段策略:首先在3-30Hz的多分辨率采样下进行时序适应训练(GE-Base-MR),使模型对不同运动速度具有鲁棒性;随后在5Hz固定采样率下进行策略对齐微调(GE-Base-LF),与下游动作建模的时序抽象保持一致。整个训练基于AgiBot-World-Beta数据集的约3000小时、超100万条真机数据,使用32块A100 GPU训练约10天完成。


GE-Act:平行流匹配动作模型

GE-Act作为即插即用的动作模块,通过160M参数的轻量级架构将GE-Base的视觉潜在表征转换为可执行的机器人控制指令。其设计巧妙地与GE-Base的视觉主干平行设计,采用与GE-Base相同网络深度的DiT块但使用更小的隐层维度以提高效率。通过交叉注意力机制,动作路径能够充分利用视觉特征中的语义信息,确保生成的动作与任务指令保持一致。


GE-Act的训练分为三个阶段:动作预训练阶段将视觉表征投射到动作策略空间;任务特定视频适应阶段更新视觉生成组件以适应特定任务;面向特定任务的动作微调完整模型以捕捉细粒度控制动态。特别值得注意的是其异步推理模式:视频DiT以5Hz运行进行单步去噪,而动作模型以30Hz运行进行5步去噪,这种"慢-快"双层优化使得系统能在机载RTX 4090 GPU上以200毫秒完成54步动作推理,实现实时控制。


GE-Sim:层次化动作条件仿真器

GE-Sim将GE-Base的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的视觉预测。该机制包含两个关键组件:Pose2Image条件将7维末端执行器姿态(位置、姿态、夹爪状态)投影到图像空间,通过相机标定生成空间对齐的姿态图像;运动向量计算连续姿态间的运动增量,编码为运动令牌并通过交叉注意力注入到每个DiT块中。


这种设计使GE-Sim能够精确地将低层控制指令转换为视觉预测,支持闭环策略评估。在实际应用中,策略模型生成的动作轨迹被GE-Sim转换为未来的视觉状态,这些生成的视频再反馈给策略模型产生下一步动作,形成完整的仿真闭环。通过分布式集群并行化,GE-Sim可实现每小时数千次的策略rollout评估,为大规模策略优化提供了高效的评估平台。更重要的是,GE-Sim还能作为数据引擎,通过在不同初始视觉环境下执行相同动作轨迹来生成多样化的训练数据。


这三个组件紧密协作,构成了完整的视觉中心机器人学习平台:GE-Base提供强大的视觉世界建模能力,GE-Act实现从视觉到动作的高效转换,GE-Sim支撑大规模策略评估和数据生成,共同推动了具身智能的发展。

EWMBench: 世界模型评测套件

此外,为了评估面向具身任务的世界模型质量,团队在GE核心组件之外开发了EWMBench评测套件。它从场景一致性、轨迹精度、运动动力学一致性,到语义对齐,全方位打分。多名专家的主观评级与GE-Bench排名高度一致,验证了其对机器人任务相关性评测的可靠性。在与Kling、Hailuo、OpenSora等先进模型的对比中,GE-Base在多项体现视觉建模质量的关键指标上均取得最优成绩,且与人类判断高度一致。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

古希腊掌管松饼的神
2026-01-16 17:04:41
他们的救命药,退出了中国市场

他们的救命药,退出了中国市场

经济观察报
2026-01-15 11:36:29
李湘多个平台账号被禁止关注

李湘多个平台账号被禁止关注

界面新闻
2026-01-16 10:56:48
摩根士丹利:中国A股与基本面进一步背离

摩根士丹利:中国A股与基本面进一步背离

爆角追踪
2026-01-16 08:06:27
轮到中方牵头军演,看到12万吨“航母”,美军才意识到情况不妙

轮到中方牵头军演,看到12万吨“航母”,美军才意识到情况不妙

空天力量
2026-01-15 20:13:58
江西一狱警被蒙面男子当街捅死,凶手:你知道这6年我怎么过的吗

江西一狱警被蒙面男子当街捅死,凶手:你知道这6年我怎么过的吗

万年历史老号
2026-01-15 01:55:52
马斯克Grok 4.2炒股收益率夺冠

马斯克Grok 4.2炒股收益率夺冠

财闻
2026-01-16 11:16:54
李湘也出事了,“大佬们”的日子也不好过了……

李湘也出事了,“大佬们”的日子也不好过了……

麦杰逊
2026-01-16 13:45:10
周六周日,北京全市降雪,主要时段公布,白天最高气温降至0℃以下

周六周日,北京全市降雪,主要时段公布,白天最高气温降至0℃以下

鲁中晨报
2026-01-16 12:27:05
冷到发紫,今年首场大范围寒潮“时刻表”定了,普降6到10℃,湖南、贵州等地有冻雨

冷到发紫,今年首场大范围寒潮“时刻表”定了,普降6到10℃,湖南、贵州等地有冻雨

潇湘晨报
2026-01-16 10:58:14
因房东翻倍涨价,北京嫣然天使儿童医院共欠租金2000多万或被关停,李亚鹏的采访视频曝光后,公众涌入捐款入口,捐款金额已达881万

因房东翻倍涨价,北京嫣然天使儿童医院共欠租金2000多万或被关停,李亚鹏的采访视频曝光后,公众涌入捐款入口,捐款金额已达881万

极目新闻
2026-01-16 11:25:23
河北定州600余年城墙安装不锈钢台阶;当地回应:城墙不是文物,正调查核实

河北定州600余年城墙安装不锈钢台阶;当地回应:城墙不是文物,正调查核实

极目新闻
2026-01-16 15:20:28
虽然英国只向格陵兰岛派兵1人,但这也是北约的“第一次”

虽然英国只向格陵兰岛派兵1人,但这也是北约的“第一次”

澎湃新闻
2026-01-16 16:26:26
从11000例手术到强制腾退:嫣然天使儿童医院困境揭示明星公益沉疴

从11000例手术到强制腾退:嫣然天使儿童医院困境揭示明星公益沉疴

看看新闻Knews
2026-01-16 12:37:21
CBA出现重大丑闻,超级外援恶意操控比赛,广东队被坑了

CBA出现重大丑闻,超级外援恶意操控比赛,广东队被坑了

宗介说体育
2026-01-16 13:51:53
重新定义国民大六座SUV,吉利银河M9如何赢得万千家庭的信任投票

重新定义国民大六座SUV,吉利银河M9如何赢得万千家庭的信任投票

买车大师
2026-01-16 10:20:19
47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

古希腊掌管松饼的神
2026-01-15 11:14:09
上午匿名投诉下午就被精准找出来,这合理吗?

上午匿名投诉下午就被精准找出来,这合理吗?

走读新生
2026-01-15 20:41:13
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

丰谭笔录
2026-01-16 07:45:09
尹锡悦被判处有期徒刑 5年

尹锡悦被判处有期徒刑 5年

每日经济新闻
2026-01-16 14:37:36
2026-01-16 18:04:49
智通财经 incentive-icons
智通财经
全球资本市场财经资讯提供者
1084148文章数 101240关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

关店102家贾国龙喊被污蔑 罗永浩回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

本地
时尚
教育
健康
游戏

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

年度最扎心电影,看得中年男女坐立难安

教育要闻

网络安全法实施!这五个专业人才身价暴涨,打响百万年薪抢人战

血常规3项异常,是身体警报!

100万份达成!类魂+刷子:这款ARPG未来真的可期!

无障碍浏览 进入关怀版