地瓜机器人发布“一帧一反馈”的世界模型，让机器人在“想象”中学会操作|算法|大模型

地瓜机器人发布“一帧一反馈”的世界模型，让机器人在“想象”中学会操作

2026-07-02 15:52:00　来源: 上观新闻

上海举报

分享至

记者今天从地瓜机器人获悉，该公司算法团队提出了Uranus，一个基于视频扩散模型、工作在帧级闭环模式下的交互式世界模型。它将机器人仿真从“手工搭建”推进到“数据驱动”的全新范式。

机器人开发离不开大量测试与验证。真机测试成本高、周期长，环境变量难以完全控制；传统仿真器虽然可以提升验证效率，但在实际使用中仍依赖场景建模、材质设定和物理参数调校等流程。随着机器人策略模型、VLA和世界模型持续迭代，行业对可交互、可复现仿真环境的需求正在增加。

Uranus基于视频扩散模型，采用帧级闭环模式。给定参考图像、机器人关节状态、相机参数和文本描述，模型可以自回归地生成多相机视角下连续、可控的未来视频流，用于模拟机器人与环境的交互过程。

帧级闭环是Uranus的核心机制。传统开环生成通常是输入一段动作后一次性输出整段视频；Uranus每一步只生成下一帧，并将生成结果反馈给下一步预测。由于生成过程按帧推进，动作指令可以在过程中实时调整，模型会根据新的动作继续生成后续画面。这让Uranus更接近机器人训练和评测所需要的交互式仿真环境。

在跨具身泛化方面，Uranus通过统一的骨架渲染管线，将不同机器人本体的动作映射到同一种“图像语言”中。系统可以根据机器人描述文件和关节状态，自动生成统一格式的骨架图。同一模型可支持 G1 人形机器人、Franka协作臂、双臂系统以及移动平台等不同具身形态。

Uranus还支持分钟级闭环稳定生成、多视角空间一致和相机轨迹控制。在训练只使用2秒短片段的情况下，模型可以在推理阶段稳定生成60秒级别的闭环视频；同时支持3路以上相机视角同步生成，并允许开发者在闭环过程中调整相机位置和角度。

从应用场景看，Uranus可用于模型评测、训练数据生成和强化学习支持。在模型评测中，可以根据策略输出的动作逐帧生成环境反馈，并记录成功率、轨迹偏差等指标；在训练场景中，可以形成“动作—反馈—再动作”的闭环过程，为策略模型训练、调试和验证提供支持。

Uranus建立在预训练的Wan2.1视频DiT骨干之上，提供1.3B和14B两个参数规模，分别适用于快速实验和高保真闭环生成场景。后续，地瓜机器人将公布完整技术报告、训练细节和定量实验结果。

地瓜机器人起步于2015年诞生的地平线，如今已发展为业界领先的机器人软硬件通用底座提供商，致力于为具身智能前沿科研探索、消费电子智能化升级、新兴品类机器人孵化提供全链路的开发基础设施，加速机器智能进化，促进人机和谐伴生。有超过500家中小创客、500+头部大中小院校以及来自全球20多个国家的超过 100000名开发者在地瓜机器人平台上，创造了数百种形态的智能机器人产品。

原标题：《地瓜机器人发布“一帧一反馈”的世界模型，让机器人在“想象”中学会操作》

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.