网易首页 > 网易号 > 正文 申请入驻

首个机器人4D世界模型来了!智元和上交大联合研发

0
分享至


机器人前瞻(公众号:robot_pro)
作者许丽思
编辑漠影

机器人前瞻1月9日报道,这两天,智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域首个4D世界模型EnerVerse亮相,该模型旨在让机器人在任务指引和实时观测的基础上规划未来动作。

在机器人技术领域中,动作规划始始终是一大难题。现有的机器人动作规划方法,往往难以实现在语言、视觉和动作等多模态空间之间精确对齐,并且还缺乏大规模、多模态且带有动作标签的数据集。

对此,EnerVerse架构可以通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务。EnerVerse还引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),在提升 4D 生成能力的同时,实现了动作规划性能的显著突破。

智元机器人表示,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。

目前,项目主页与论文已上线,模型与相关数据集即将开源。


一、逐步生成未来具身空间,灵活表达4D空间EnerVerse 采用逐块生成的自回归扩散模型,通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括:1)扩散模型架构:基于结合时空注意力的 UNet 结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑(causal logic)保持时间一致性,从而确保生成序列的逻辑合理性。

2)稀疏记忆机制:借鉴大模型(LLM)的上下文记忆,EnerVerse 在训练阶段对历史帧进行高比例随机掩码(mask),推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。

3)任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。

▲自回归扩散模型

EnerVerse提出了灵活的自由锚定视角(FAV)方法,以解决过去在具身操作中由于遮挡关系复杂,难以构建完美的全局视角的问题。核心特点有:

1)自由设定视角:允许根据场景灵活重置锚定视角,避免固定多视角在狭窄空间中的局限性。例如,在厨房等场景,FAV可以轻松适应动态的遮挡环境。

2)跨视角空间一致性:基于光线投射原理,EnerVerse使用视线方向图作为视角控制条件,同时将扩散模型中的2D空间注意力扩展为跨视角的3D空间注意力,确保生成的多视角视频在几何上保持一致。

3)Sim2Real Adaption:通过在仿真数据上微调的4D生成模型与4D高斯泼溅(4D Gaussian Splatting)交替迭代,构建了一个数据飞轮,为真实场景下的FAV生成提供伪真值支持。


▲自由锚定视角方法

EnerVerse 还通过在生成网络下游集成 Diffusion 策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。关键设计包括:

1)高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。

2)稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的 FAV 观测结果,有效提升长程任务规划能力。

二、视频生成、动作规划等多项能力出众

实验结果表面,EnerVerse 在视频生成、动作规划、消融与训练策略分析及注意力可视化方面都表现出卓越的性能。

1、视频生成性能

短程生成任务中,EnerVerse 表现优于现有微调视频生成模型,如基于 DynamiCrafter 与 FreeNoise 的扩散模型。

在长程生成任务中,EnerVerse 展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。


▲EnerVerse的视频生成表现优于DynamiCrafter 与 FreeNoise的扩散模型

此外,EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。


▲EnerVerse生成多视角视频

2、动作规划能力

在LIBERO基准测试中,EnerVerse在机器人动作规划任务中取得了显著优势。

其单视角(one FAV)模型在LIBERO四类任务中的平均成功率已超过现有最佳方法,多视角(three FAV)设定进一步提升任务成功率,在每一类任务上均超越现有方法。


▲EnerVerse单视角、多视角模型成功率均超越现有方法

3、消融与训练策略分析

在稀疏记忆机制方面,消融实验表明,稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。

▲EnerVerse引入稀疏记忆机制

另外,先进行未来空间生成训练,再进行特定场景动作预测训练的二阶段策略,可显著提升动作规划性能。


4. 注意力可视化

通过可视化 Diffusion 策略头中的交叉注意力模块,研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。


▲EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性

三、结语:EnerVerse探索具身智能全新范式

EnerVerse 架构凭借自回归扩散模型、稀疏记忆机制以及自由锚定视角等创新设计,为具身智能未来空间生成引导动作规划,不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。

EnerVerse也或将开启机器人融入日常生活与各行业生产的新篇章,对未来动作的规划能力可以使得机器人在工业制造、物流配送等诸多场景实现更高的生产效率。随着项目的开源推进,也将会进一步优化、拓展其应用边界,加速机器人从实验室迈向千行百业、千家万户。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

情感艺术家
2026-05-06 04:58:30
A股:周日下午传来3个特大消息!明天或迎来更大级别变盘行情?

A股:周日下午传来3个特大消息!明天或迎来更大级别变盘行情?

趋势清风侠
2026-05-10 15:29:01
四川华蓥“瀑布秋千”夺命之后:闭园已近一周,项目设计或存严重缺陷

四川华蓥“瀑布秋千”夺命之后:闭园已近一周,项目设计或存严重缺陷

澎湃新闻
2026-05-10 10:12:36
全网祝贺!刘诗雯亮相新岗位,职务级别不一般,薪资待遇流出

全网祝贺!刘诗雯亮相新岗位,职务级别不一般,薪资待遇流出

寻墨阁
2026-05-10 00:07:34
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
上海海港找回中后场的节奏感,也更让人想念加布里埃尔

上海海港找回中后场的节奏感,也更让人想念加布里埃尔

米奇兔
2026-05-10 22:46:59
月薪几万却招不到人?远洋海员背后的残酷,配偶:男女关系太乱了

月薪几万却招不到人?远洋海员背后的残酷,配偶:男女关系太乱了

李将平老师
2026-05-08 09:42:27
世乒赛争冠阵容:梁靖崑战张本,王楚钦对松岛,林诗栋三单

世乒赛争冠阵容:梁靖崑战张本,王楚钦对松岛,林诗栋三单

佳佳说奇事故事
2026-05-10 23:37:56
为190元“仅退款”榴莲千里讨公道的卖家再发声:买家用化姓致当地一女生被“误伤”,暂未收到对方家属道歉,不需要经济补偿

为190元“仅退款”榴莲千里讨公道的卖家再发声:买家用化姓致当地一女生被“误伤”,暂未收到对方家属道歉,不需要经济补偿

极目新闻
2026-05-09 19:27:51
闹大了!法国队赛前放狠话失败,F·勒布伦当场痛哭,哥哥情绪失控

闹大了!法国队赛前放狠话失败,F·勒布伦当场痛哭,哥哥情绪失控

郝小小看体育
2026-05-10 09:30:13
女团夺冠孙颖莎场内采访!点出王曼昱顶住压力,致谢乒乓队支持!

女团夺冠孙颖莎场内采访!点出王曼昱顶住压力,致谢乒乓队支持!

篮球资讯达人
2026-05-10 22:21:11
张萌每一套都那么诱人

张萌每一套都那么诱人

乡野小珥
2026-04-30 15:18:35
缺钾比缺钙危险?5个信号证明你缺钾了,建议吃这5种食物缓解

缺钾比缺钙危险?5个信号证明你缺钾了,建议吃这5种食物缓解

健康之光
2026-05-07 20:50:03
阿森纳有麻烦了!曼城3-0后差2分,客场对西汉姆不胜或英超丢冠

阿森纳有麻烦了!曼城3-0后差2分,客场对西汉姆不胜或英超丢冠

体育知多少
2026-05-10 07:41:26
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

乔话
2026-04-19 22:13:11
航炮点穴瘫痪伊朗油轮!美军这手操作,把暴力与克制玩到了极致

航炮点穴瘫痪伊朗油轮!美军这手操作,把暴力与克制玩到了极致

民间胡扯老哥
2026-05-10 07:06:14
问界M9被极氪9X搅局,谁能做国产豪车中的“苹果”?

问界M9被极氪9X搅局,谁能做国产豪车中的“苹果”?

汽车通讯社
2026-05-09 22:39:59
劝年纪不到50的女人,身体还行,公司不开除,就不要轻易放弃工作

劝年纪不到50的女人,身体还行,公司不开除,就不要轻易放弃工作

小马达情感故事
2026-05-09 19:50:03
白酒大逃杀

白酒大逃杀

虎嗅APP
2026-05-10 05:30:10
2026-05-11 00:35:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
游戏
家居
手机
军事航空

教育要闻

请教会你的孩子有能力分辨和说不!

《明末》官号复活!连发多条动态 网友感叹担忧

家居要闻

菁英人居 全能豪宅

手机要闻

联想拯救者手机Y70新一代现身Geekbench

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版