网易首页 > 网易号 > 正文 申请入驻

一套模型通吃所有机器人,地瓜发了个帧级闭环世界模型

0
分享至



一句话生成仿真环境,机械臂随便练。

作者 | 王涵

编辑 | 漠影

机器人前瞻7月2日报道,今天,地瓜机器人算法团队发布世界模型Uranus,该模型是一个基于视频扩散模型、工作在帧级闭环模式下的交互式世界模型。

Uranus的核心思想就是,给定几帧参考图像、机器人关节状态、相机参数和一句文本描述,模型就能自回归地生成多相机视角下连续、可控的未来视频流,模拟机器人与环境的交互过程。



▲Uranus模型架构:模型在参考帧和历史帧约束下,根据输入的动作通过flow matching生成下一帧

该模型以预训练Wan 2.1视频DiT骨干为基础,采用一阶段训练方案,能够直接产出分钟级可交互视频。



▲Uranus训练过程使用的Causal Mask

Uranus提供1.3B14B两个参数规模,分别适用于快速实验和高保真闭环生成场景。

01.

首创逐帧闭环仿真

可以随时改指令、即时出反馈

开发一台能自主完成复杂任务的机器人,离不开大量的测试与验证。然而,真实世界的测试昂贵、耗时且难以复现,一台机械臂很难在真实环境中试错成千上万次。

传统仿真器,如Isaac Sim、MuJoCo等,提供了一种替代方案:在虚拟环境中验证算法,再迁移到真实世界。但这条路同样崎岖,因为手工构建仿真场景本身就是一项浩大的工程。3D建模、材质设定、物理参数调校……每一个新环境都需要数天甚至数周的搭建。

有没有一种方法,能像生成图片和视频一样“生成”一个仿真环境?更进一步,能不能像真正的仿真器那样,做到逐帧交互、逐帧闭环?

不同于传统开环生成方案需要提前录入完整动作序列、一次性输出全部视频片段,Uranus用了仿真器式的逐帧运行架构,交互逻辑实现全面升级。



整套系统采用分步逐帧生成机制:模型结合参考图像、历史画面以及实时动作指令,推算出机器人下一时刻多机位相机对应的视觉画面。每一帧生成完成后,画面会即时存入历史上下文窗口,作为后续帧推理的输入依据,形成完整闭环。

依托逐帧推理的底层设计,用户能够随时更改动作指令,模型可即时做出对应视觉反馈,实现动态操控。

使用者仅需上传初始场景画面与机器人模型文件,就能在虚拟视觉环境中像操控实体机器人一样完成各类调试操作,全程无需人工搭建三维模型,大幅简化机器人仿真测试流程。

02.

四大技术亮点

破解长时序闭环难题

Uranus背后主要有四大技术亮点:

1、跨具身零样本泛化

传统方案需要针对不同机器人单独训练专属模型,而Uranus依靠一套统一骨架渲染管线,实现机器人本体结构与模型输入完全解耦。

用户仅需上传URDF、MJCF格式机器人描述文件,并输入关节位置数据,系统就能通过前向运动学算法算出三维关节坐标,再投射至相机平面生成骨架图像。依靠这套机制,单一模型可同时适配G1人形机器人、Franka协作机械臂、双臂机器人以及移动机器人平台等多类设备。

这套能力对闭环交互流程有着关键作用:闭环运行逻辑中,模型会持续将上一帧输出预测作为下一帧输入。若模型仅适配单一机器人,切换设备就必须重新训练,闭环体系根本不具备通用适配能力。

而Uranus这套统一骨架渲染管线,能够把各类机器人的运动动作转化为统一的图像表征,实现跨机型通用。

2、分钟级闭环稳定生成

帧级闭环运行最大难题在于误差累积:模型每一步产生的细微预测偏差,都会作为前置数据输入下一阶段,持续迭代数十帧后极易出现画面失真崩坏。

多数视频生成模型仅能生成数秒开环画面,根源便是未能攻克该痛点。Uranus依靠三项核心设计,打通长时序闭环推演瓶颈:

因果注意力掩码(Causal Mask):限定单帧仅能读取过往时序信息,严格匹配自回归闭环的因果逻辑;

帧相对位置编码(Frame-Relative RoPE):模型仅用短片段完成训练,推理阶段却可适配任意时长的闭环连续推演;

参考帧注意力汇(Reference Sink):依托Transformer原生注意力汇聚特性,把初始基准帧长期留存于上下文窗口充当视觉参照。即便闭环持续运行大量步数,模型始终保有清晰原始画面作为参照,大幅缓解画面偏移失真问题。

3、多视图空间一致

机器人一般搭载多套摄像设备,包含手部相机与环境外置相机等不同机位。Uranus可同步渲染三路及以上相机画面,且多视角画面能够维持统一空间几何关系。算法团队为此设计交替时空注意力架构:

  • 空间计算模式:同步帧下各相机视图互通特征信息,保障多视角空间逻辑统一;

  • 时间计算模式:单台相机沿时间维度建模运动变化,闭环推演阶段仅该模块生成KVCache缓存,降低算力开销。

两种计算模式在模型的DiT网络层级交替运行,平衡图像生成效果与运算效率。

4、精确的相机轨迹控制

Uranus借助普吕克射线嵌入技术,将每一帧相机的内参、外参转化为逐像素稠密几何特征。这套表征完全依托相机标定参数生成,不需要模型额外学习。

落地到闭环交互场景,该特性带来一大优势,即用户可像操作常规仿真工具一样,随时调整相机位姿;模型会依据更新后的相机参数,在下一帧同步输出匹配新机位的画面。

03.

引入KV-Cache缓存

算力开销恒定可控

帧级闭环推演对模型的工程性能提出了极高挑战。模型每生成一帧画面,都要完成一轮完整的去噪扩散流程,若每一步都从零计算注意力特征,计算开销将随序列长度呈平方级暴涨,严重限制长时序闭环运行能力。

针对这一性能瓶颈,算法团队为Uranus引入KV-Cache缓存与滑动窗口机制,大幅压缩推理成本。

在预填充阶段,系统会提前计算并缓存。与此同时,平台通过滑动窗口淘汰机制,动态管理时序数据。当历史帧数量超出窗口阈值时,系统会自动舍弃最早的帧数据,始终保持单步推理开销稳定可控。

在训练层面,算法团队融合HSDP、序列并行与VAE分块并行的混合训练策略,模型可支撑64卡大规模集群训练,高效完成长时序模型迭代。



推理阶段,模型则依托KV-Cache、滑动窗口淘汰与序列并行三重优化,实现恒定层级的单步延迟与显存占用。无论闭环生成多少帧画面,模型算力开销始终保持稳定,能够稳定支撑多环境并行实时推演。

04.

结语:地瓜机器人让机器人

自主学习环境交互

帧级闭环是Uranus相较普通视频生成模型最核心的差异化能力。该框架能够逐帧接收操控指令、逐帧输出视觉画面,并把生成画面回输作为下一帧的输入条件,也正因这套闭环逻辑,它得以成为具备实操价值的交互式仿真工具

地瓜机器人的算法团队的整套方案以数据驱动为核心,让机器人依托虚拟视觉推演,完成与环境交互的自主学习。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国最后还是松了口?高市早苗访印专机直接从中国领空穿行而过!

中国最后还是松了口?高市早苗访印专机直接从中国领空穿行而过!

阿龙聊军事
2026-07-05 08:22:41
1死3伤!母亲遭11名高利贷催收人员“脱裤”羞辱,男子挥刀讨公道

1死3伤!母亲遭11名高利贷催收人员“脱裤”羞辱,男子挥刀讨公道

易玄
2026-07-04 10:55:57
NBA夏联:勇三崩!勇士单节13-34狂输21分负雄鹿 波士顿17分

NBA夏联:勇三崩!勇士单节13-34狂输21分负雄鹿 波士顿17分

醉卧浮生
2026-07-05 07:36:09
从首富到倾家荡产,只用三天

从首富到倾家荡产,只用三天

无心镜
2026-07-04 09:07:07
巴拉圭门将赛后用球砸姆巴佩:我们踢得很好 没点球的话就赢了

巴拉圭门将赛后用球砸姆巴佩:我们踢得很好 没点球的话就赢了

风过乡
2026-07-05 08:19:03
5日凌晨大满贯,国乒喜讯,4-0剃光头大胜、4强,张本美和太狠了

5日凌晨大满贯,国乒喜讯,4-0剃光头大胜、4强,张本美和太狠了

林子说事
2026-07-05 06:55:42
张雪:现在负债近1亿!儿子要200块我都没有 1个月内就能全部还清

张雪:现在负债近1亿!儿子要200块我都没有 1个月内就能全部还清

念洲
2026-07-05 06:58:14
深圳男子30年前买保险退休月领50万!仅领1个月,保险公司不认了

深圳男子30年前买保险退休月领50万!仅领1个月,保险公司不认了

听心堂
2026-07-04 13:34:23
两岸战线一致,国民党再派人访陆,留下一席话,“台独”大势已去

两岸战线一致,国民党再派人访陆,留下一席话,“台独”大势已去

梦想的现实
2026-07-04 17:32:07
WTT美国大满贯捷报:女单爆冷!国乒女单后继有人,孙颖莎剃光头

WTT美国大满贯捷报:女单爆冷!国乒女单后继有人,孙颖莎剃光头

翰飞观事
2026-07-04 19:12:47
7月4日,养老金调整即将开启,工龄20年和40年涨幅能差2倍吗?

7月4日,养老金调整即将开启,工龄20年和40年涨幅能差2倍吗?

虎哥闲聊
2026-07-04 20:48:07
世界杯乌龙球引来杀身之祸?32年后幕后大佬横死街头

世界杯乌龙球引来杀身之祸?32年后幕后大佬横死街头

老牛体育解说
2026-07-05 04:32:55
见证尼克斯夺冠后离开!尤因加入奇才担任助教

见证尼克斯夺冠后离开!尤因加入奇才担任助教

体坛周报
2026-07-05 08:34:12
阿萨德离开一年半,叙利亚人后悔了吗?看看百年前的新疆就知道了

阿萨德离开一年半,叙利亚人后悔了吗?看看百年前的新疆就知道了

晓徙娱乐
2026-07-04 11:04:31
速递!中国篮协开紧急会议,杜锋或顶替郭士强,赵继伟打封闭上阵

速递!中国篮协开紧急会议,杜锋或顶替郭士强,赵继伟打封闭上阵

多特体育说
2026-07-05 09:04:44
外媒:500架歼-20入列,其数量产能碾压F-22,但到1000架后将停产

外媒:500架歼-20入列,其数量产能碾压F-22,但到1000架后将停产

止戈军是我
2026-07-05 06:50:11
凌晨3点!世界杯重头戏,9.4万球迷见证 C罗大战亚马尔 CCTV5直播

凌晨3点!世界杯重头戏,9.4万球迷见证 C罗大战亚马尔 CCTV5直播

麦子的篮球故事
2026-07-04 13:36:23
我一直被领导边缘化,拿到涨薪40%的offer后提了离职,没想到领导说:“其实你挺笨的,之所以一直留着你,是因为你还算听话!”

我一直被领导边缘化,拿到涨薪40%的offer后提了离职,没想到领导说:“其实你挺笨的,之所以一直留着你,是因为你还算听话!”

励职派
2026-07-04 19:15:50
教编血战2026:岗位暴跌94%,部属师范生无一上岸?

教编血战2026:岗位暴跌94%,部属师范生无一上岸?

起喜电影
2026-07-04 19:13:57
奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

奇拉维特:98年我面对的是法国队,如今的法国是“非洲队”

懂球帝
2026-07-04 18:28:46
2026-07-05 10:24:49
机器人前瞻
机器人前瞻
智东西AI媒体矩阵品牌。机器人前瞻,机器人产业新媒体,专注报道全球机器人创新。
657文章数 12关注度
往期回顾 全部

科技要闻

年费7.5万美元,美国富裕家庭把孩子送进AI学校

头条要闻

姆巴佩被巴拉圭队球员出拳击倒 进球后用不屑表情回应

头条要闻

姆巴佩被巴拉圭队球员出拳击倒 进球后用不屑表情回应

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
游戏
艺术
公开课
军事航空

本地新闻

国内足球之旅?这座小城给你高分答案

玩家"反了"!大批退款GTA6/ps会员:别再装睡

艺术要闻

八大山人迷之印章 你认得几个?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版