![]()
记者今天从地瓜机器人获悉,该公司算法团队提出了Uranus,一个基于视频扩散模型、工作在帧级闭环模式下的交互式世界模型。它将机器人仿真从“手工搭建”推进到“数据驱动”的全新范式。
机器人开发离不开大量测试与验证。真机测试成本高、周期长,环境变量难以完全控制;传统仿真器虽然可以提升验证效率,但在实际使用中仍依赖场景建模、材质设定和物理参数调校等流程。随着机器人策略模型、VLA和世界模型持续迭代,行业对可交互、可复现仿真环境的需求正在增加。
Uranus基于视频扩散模型,采用帧级闭环模式。给定参考图像、机器人关节状态、相机参数和文本描述,模型可以自回归地生成多相机视角下连续、可控的未来视频流,用于模拟机器人与环境的交互过程。
帧级闭环是Uranus的核心机制。传统开环生成通常是输入一段动作后一次性输出整段视频;Uranus每一步只生成下一帧,并将生成结果反馈给下一步预测。由于生成过程按帧推进,动作指令可以在过程中实时调整,模型会根据新的动作继续生成后续画面。这让Uranus更接近机器人训练和评测所需要的交互式仿真环境。
![]()
在跨具身泛化方面,Uranus通过统一的骨架渲染管线,将不同机器人本体的动作映射到同一种“图像语言”中。系统可以根据机器人描述文件和关节状态,自动生成统一格式的骨架图。同一模型可支持 G1 人形机器人、Franka协作臂、双臂系统以及移动平台等不同具身形态。
Uranus还支持分钟级闭环稳定生成、多视角空间一致和相机轨迹控制。在训练只使用2秒短片段的情况下,模型可以在推理阶段稳定生成60秒级别的闭环视频;同时支持3路以上相机视角同步生成,并允许开发者在闭环过程中调整相机位置和角度。
从应用场景看,Uranus可用于模型评测、训练数据生成和强化学习支持。在模型评测中,可以根据策略输出的动作逐帧生成环境反馈,并记录成功率、轨迹偏差等指标;在训练场景中,可以形成“动作—反馈—再动作”的闭环过程,为策略模型训练、调试和验证提供支持。
Uranus建立在预训练的Wan2.1视频DiT骨干之上,提供1.3B和14B两个参数规模,分别适用于快速实验和高保真闭环生成场景。后续,地瓜机器人将公布完整技术报告、训练细节和定量实验结果。
地瓜机器人起步于2015年诞生的地平线,如今已发展为业界领先的机器人软硬件通用底座提供商,致力于为具身智能前沿科研探索、消费电子智能化升级、新兴品类机器人孵化提供全链路的开发基础设施,加速机器智能进化,促进人机和谐伴生。有超过500家中小创客、500+头部大中小院校以及来自全球20多个国家的超过 100000名开发者在地瓜机器人平台上,创造了数百种形态的智能机器人产品。
原标题:《地瓜机器人发布“一帧一反馈”的世界模型,让机器人在“想象”中学会操作》
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.