如果说大模型让智能体「理解世界」成为可能,那么具身智能(Embodied AI)正在让智能体「进入世界」成为现实。
过去一年,一个愈发清晰的趋势是:智能体不再只是在语言空间里推理,而是开始在可交互、可预测、可模拟的物理与数字世界中学习与决策。支撑这一跃迁的关键技术,正是世界模型(World Model)——一种能够在内部构建环境动态、预判未来状态、模拟行动结果的生成式系统。
从基于大规模第一人称视频训练的通用机器人世界模型,到将视觉-语言-动作统一在同一闭环中的 VLA 框架;从高保真、可实时交互的开源世界模拟器,到通过失败反馈反向优化策略与环境的闭环学习机制;再到可以无限扩展的合成环境生成器——我们正看到一个全新的研究范式逐渐成型:让智能体在「可想象的世界」中反复试错,在「可生成的环境」中不断进化。
本周,我们为大家推荐的 6 篇具身智能与世界模型方向的热门 AI 论文,涵盖 NVIDIA、字节跳动 Seed、Snowflake Labs、加州大学伯克利分校、清华大学、北京航空航天大学等团队,快来学习吧 ⬇️
此外,为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。
最新 AI 论文:https://go.hyper.ai/hzChC
本周论文推荐
1
DreamDojo: A Generalist Robot
World Model from Large-Scale
Human Videos
NVIDIA、香港科技大学、加州大学伯克利分校等机构的研究人员提出了 DREAMDoJO,这是一种基于 44,000 小时第一人称视频训练的基础世界模型,通过引入潜在动作克服动作标签稀缺问题,支持实时、物理感知的机器人仿真,适用于开放世界任务中的遥操作与规划。
论文及详细解读:https://go.hyper.ai/7THCg
![]()
核心框架图
作者使用 DreamDojo-HV,一个包含 44,711 小时第一人称视频的数据集,用于预训练一个能够跨物体、任务和环境泛化的世界模型。这是目前用于该目的的最大人类交互数据集。
![]()
数据集框架图
2
Advancing Open-source
World Models
Robbyant 团队推出 LingBot-World,一款基于视频生成技术开源的世界模拟器。作为顶级世界模型,LingBot-World 具备以下特性:(1)在多种环境场景中保持高保真度与稳健的动力学表现,涵盖现实场景、科学模拟、卡通风格等广泛领域;(2)支持长达数分钟的预测时域,同时维持时间上的上下文一致性,即所谓的「长期记忆」能力;(3)支持实时交互,可在每秒生成 16 帧的情况下实现低于 1 秒的延迟。
论文及详细解读:https://go.hyper.ai/CSG8d
![]()
交互式世界模拟效果展示
作者使用包含采集、分析和描述三个组件的统一数据引擎。其中数据集包含 3 大来源:
* 人类、动物和车辆的第一人称与第三人称真实世界视频。
* 游戏数据,包含同步的 RGB 帧、用户操作(如 WASD)与相机参数。
* 来自 Unreal Engine 的合成视频,含无碰撞、随机相机轨迹及真值内参与外参
![]()
数据集框架图
3
Agent World Model: Infinity Synthetic
Environments for Agentic
Reinforcement Learning
来自 Snowflake Labs 和加州大学圣地亚哥分校的研究人员提出了 Agent World Model(AWM),这是一种合成环境生成器,支持可扩展的、代码驱动的智能体训练,每个环境包含 1,000 个多样化场景和 35 个工具,性能优于 LLM 模拟环境,并通过可执行的、数据库支持的状态提升分布外泛化能力。
论文及详细解读:https://go.hyper.ai/zDsWb
![]()
Agent World Model 架构示例
作者使用合成生成的数据集训练基于状态、数据库支持的应用程序中的智能体——重点关注 CRUD 操作而非静态内容。
* 从 100 个种子域名(流行网站)开始,使用 Self-Instruct 风格的 LLM 扩展到 1,000 个多样化场景。
* 每个场景代表一个需要数据库交互的真实世界应用领域(例如电子商务、CRM、银行、旅游)。
* 场景经过筛选,排除只读或内容密集型网站(如新闻或博客),并按类别限制以确保多样性。
![]()
数据集框架图
4
BagelVLA: Enhancing Long-Horizon
Manipulation via Interleaved
Vision-Language-Action Generation
清华大学与字节跳动 Seed 的研究人员提出 BagelVLA,这是一种统一的 VLA 模型,通过残差流引导(Residual Flow Guidance)整合语言规划与视觉预测,实现精确、低延迟的动作生成,在复杂多阶段操作任务中显著优于基线方法。
论文及详细解读:https://go.hyper.ai/31PTb
![]()
模型架构图
作者使用多源、多阶段数据集训练模型,用于具身子任务规划与关键帧预测。其中数据组成与来源包括机器人数据及通用数据
![]()
数据集框架图
5
ACoT-VLA: Action Chain-of-Thought
for Vision-Language-Action Models
北京航空航天大学与 AgiBot 的作者提出 ACoT-VLA,一种新颖的 VLA(视觉-语言-动作)架构,通过引入动作链式思维(Action Chain-of-Thought)推理,使显式的粗粒度动作意图与隐式的潜在动作先验共同指导精确动作生成,从而在 LIBERO、LIBERO-Plus 和 VLABench 基准上超越了先前方法。
论文及详细解读:https://go.hyper.ai/0matp
![]()
Idea2Story 框架示例
该数据集包含三个公开的仿真基准:LIBERO、LIBERO-Plus 和 VLABench,以及三个任务的自采真实世界数据:擦除污渍、倒水、开放集抓取。作者在训练中混合使用这些数据集,训练划分基于完整 episode 集合,混合比例根据任务复杂度与规模进行调整。
![]()
数据集框架图
6
World-VLA-Loop: Closed-Loop
Learning of Video World Model
and VLA Policy
Show Lab 的研究人员提出了 World-VLA-Loop,这是一种通过迭代失败反馈共同优化视频世界模型与 VLA 策略的闭环框架,借助 SANS 数据集提升动作跟随精度,并在仿真中实现高保真强化学习训练,使真实机器人任务成功率提升 36.7%。
论文及详细解读:https://go.hyper.ai/DqMYl
![]()
模型架构示例
SANS 数据集从三个来源整理:ManiSkill、LIBERO 和真实机器人设置。在 ManiSkill 中,成功轨迹通过基于真实姿态的策略收集,然后添加扰动生成失败轨迹;额外失败轨迹来自策略回放。在 LIBERO 中,失败轨迹通过 OpenVLA-OFT 回放收集。真实世界数据结合手动遥操作与 OpenVLA-OFT 回放以捕捉合理失败。
![]()
数据集框架图
以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。
同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。
下周再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.