网易首页 > 网易号 > 正文 申请入驻

全球技术巨头共聚一堂:NVIDIA、字节跳动、清华等揭示创新突破

0
分享至

如果说大模型让智能体「理解世界」成为可能,那么具身智能(Embodied AI)正在让智能体「进入世界」成为现实。

过去一年,一个愈发清晰的趋势是:智能体不再只是在语言空间里推理,而是开始在可交互、可预测、可模拟的物理与数字世界中学习与决策。支撑这一跃迁的关键技术,正是世界模型(World Model)——一种能够在内部构建环境动态、预判未来状态、模拟行动结果的生成式系统。

从基于大规模第一人称视频训练的通用机器人世界模型,到将视觉-语言-动作统一在同一闭环中的 VLA 框架;从高保真、可实时交互的开源世界模拟器,到通过失败反馈反向优化策略与环境的闭环学习机制;再到可以无限扩展的合成环境生成器——我们正看到一个全新的研究范式逐渐成型:让智能体在「可想象的世界」中反复试错,在「可生成的环境」中不断进化。

本周,我们为大家推荐的 6 篇具身智能与世界模型方向的热门 AI 论文,涵盖 NVIDIA、字节跳动 Seed、Snowflake Labs、加州大学伯克利分校、清华大学、北京航空航天大学等团队,快来学习吧 ⬇️

此外,为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。

最新 AI 论文:https://go.hyper.ai/hzChC

本周论文推荐

1

DreamDojo: A Generalist Robot

World Model from Large-Scale

Human Videos

NVIDIA、香港科技大学、加州大学伯克利分校等机构的研究人员提出了 DREAMDoJO,这是一种基于 44,000 小时第一人称视频训练的基础世界模型,通过引入潜在动作克服动作标签稀缺问题,支持实时、物理感知的机器人仿真,适用于开放世界任务中的遥操作与规划。

论文及详细解读https://go.hyper.ai/7THCg


核心框架图

作者使用 DreamDojo-HV,一个包含 44,711 小时第一人称视频的数据集,用于预训练一个能够跨物体、任务和环境泛化的世界模型。这是目前用于该目的的最大人类交互数据集。


数据集框架图

2

Advancing Open-source

World Models

Robbyant 团队推出 LingBot-World,一款基于视频生成技术开源的世界模拟器。作为顶级世界模型,LingBot-World 具备以下特性:(1)在多种环境场景中保持高保真度与稳健的动力学表现,涵盖现实场景、科学模拟、卡通风格等广泛领域;(2)支持长达数分钟的预测时域,同时维持时间上的上下文一致性,即所谓的「长期记忆」能力;(3)支持实时交互,可在每秒生成 16 帧的情况下实现低于 1 秒的延迟。

论文及详细解读:https://go.hyper.ai/CSG8d


交互式世界模拟效果展示

作者使用包含采集、分析和描述三个组件的统一数据引擎。其中数据集包含 3 大来源:

* 人类、动物和车辆的第一人称与第三人称真实世界视频。

* 游戏数据,包含同步的 RGB 帧、用户操作(如 WASD)与相机参数。

* 来自 Unreal Engine 的合成视频,含无碰撞、随机相机轨迹及真值内参与外参


数据集框架图

3

Agent World Model: Infinity Synthetic

Environments for Agentic

Reinforcement Learning

来自 Snowflake Labs 和加州大学圣地亚哥分校的研究人员提出了 Agent World Model(AWM),这是一种合成环境生成器,支持可扩展的、代码驱动的智能体训练,每个环境包含 1,000 个多样化场景和 35 个工具,性能优于 LLM 模拟环境,并通过可执行的、数据库支持的状态提升分布外泛化能力。

论文及详细解读https://go.hyper.ai/zDsWb


Agent World Model 架构示例

作者使用合成生成的数据集训练基于状态、数据库支持的应用程序中的智能体——重点关注 CRUD 操作而非静态内容。

* 从 100 个种子域名(流行网站)开始,使用 Self-Instruct 风格的 LLM 扩展到 1,000 个多样化场景。

* 每个场景代表一个需要数据库交互的真实世界应用领域(例如电子商务、CRM、银行、旅游)。

* 场景经过筛选,排除只读或内容密集型网站(如新闻或博客),并按类别限制以确保多样性。


数据集框架图

4

BagelVLA: Enhancing Long-Horizon

Manipulation via Interleaved

Vision-Language-Action Generation

清华大学与字节跳动 Seed 的研究人员提出 BagelVLA,这是一种统一的 VLA 模型,通过残差流引导(Residual Flow Guidance)整合语言规划与视觉预测,实现精确、低延迟的动作生成,在复杂多阶段操作任务中显著优于基线方法。

论文及详细解读https://go.hyper.ai/31PTb


模型架构图

作者使用多源、多阶段数据集训练模型,用于具身子任务规划与关键帧预测。其中数据组成与来源包括机器人数据及通用数据


数据集框架图

5

ACoT-VLA: Action Chain-of-Thought

for Vision-Language-Action Models

北京航空航天大学与 AgiBot 的作者提出 ACoT-VLA,一种新颖的 VLA(视觉-语言-动作)架构,通过引入动作链式思维(Action Chain-of-Thought)推理,使显式的粗粒度动作意图与隐式的潜在动作先验共同指导精确动作生成,从而在 LIBERO、LIBERO-Plus 和 VLABench 基准上超越了先前方法。

论文及详细解读https://go.hyper.ai/0matp


Idea2Story 框架示例

该数据集包含三个公开的仿真基准:LIBERO、LIBERO-Plus 和 VLABench,以及三个任务的自采真实世界数据:擦除污渍、倒水、开放集抓取。作者在训练中混合使用这些数据集,训练划分基于完整 episode 集合,混合比例根据任务复杂度与规模进行调整。


数据集框架图

6

World-VLA-Loop: Closed-Loop

Learning of Video World Model

and VLA Policy

Show Lab 的研究人员提出了 World-VLA-Loop,这是一种通过迭代失败反馈共同优化视频世界模型与 VLA 策略的闭环框架,借助 SANS 数据集提升动作跟随精度,并在仿真中实现高保真强化学习训练,使真实机器人任务成功率提升 36.7%。

论文及详细解读https://go.hyper.ai/DqMYl


模型架构示例

SANS 数据集从三个来源整理:ManiSkill、LIBERO 和真实机器人设置。在 ManiSkill 中,成功轨迹通过基于真实姿态的策略收集,然后添加扰动生成失败轨迹;额外失败轨迹来自策略回放。在 LIBERO 中,失败轨迹通过 OpenVLA-OFT 回放收集。真实世界数据结合手动遥操作与 OpenVLA-OFT 回放以捕捉合理失败。


数据集框架图

以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。

下周再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
事实证明,刘少奇在党内地位快速提升是有原因的

事实证明,刘少奇在党内地位快速提升是有原因的

尚书乔
2025-02-21 00:04:05
太暖了!汪大爷赴台看箖玥,箖箖喊筱梅妈妈婆婆,后续举动好圈粉

太暖了!汪大爷赴台看箖玥,箖箖喊筱梅妈妈婆婆,后续举动好圈粉

小李子体育
2026-02-19 18:10:50
女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

丫头舫
2026-02-10 22:18:05
细思极恐!马斯克X平台算法被实锤:悄悄改写用户政治立场

细思极恐!马斯克X平台算法被实锤:悄悄改写用户政治立场

老马拉车莫少装
2026-02-20 00:02:27
冬奥会|19日看点:看大项迎首秀 看中国再冲金

冬奥会|19日看点:看大项迎首秀 看中国再冲金

新华社
2026-02-19 02:55:08
在济南,普通人存到多少钱才能不焦虑

在济南,普通人存到多少钱才能不焦虑

白浅娱乐聊
2026-02-19 21:04:49
无论你的孩子多大,一定要跟孩子说这些话!

无论你的孩子多大,一定要跟孩子说这些话!

明智家庭教育
2025-12-02 11:00:31
王楚然粉裙太短秀逆天长腿,毛绒边点缀纯欲风拉满?

王楚然粉裙太短秀逆天长腿,毛绒边点缀纯欲风拉满?

娱乐领航家
2026-02-12 00:00:06
你见过最不会点菜的人是什么样子?网友:火锅很清淡啊

你见过最不会点菜的人是什么样子?网友:火锅很清淡啊

夜深爱杂谈
2026-02-19 21:55:22
安徽某建筑公司关门倒闭,全员失业!

安徽某建筑公司关门倒闭,全员失业!

黯泉
2026-02-19 22:16:54
官宣!李纯、马頔领证结婚,晒照互道恭喜

官宣!李纯、马頔领证结婚,晒照互道恭喜

鲁中晨报
2025-10-02 13:28:04
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
北京春节的好天气,持续到初几?出行前必看——

北京春节的好天气,持续到初几?出行前必看——

BRTV新闻
2026-02-19 12:49:06
1965年毛主席批判《海瑞罢官》,田家英:那以后没人敢研究历史了

1965年毛主席批判《海瑞罢官》,田家英:那以后没人敢研究历史了

大运河时空
2026-02-18 11:35:03
心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

医学科普汇
2026-02-11 06:30:11
事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

小熊侃史
2026-02-11 12:56:17
“空气香甜女”杨舒平,已被美国驱逐出境,如今回国下场大快人心

“空气香甜女”杨舒平,已被美国驱逐出境,如今回国下场大快人心

哄动一时啊
2026-02-19 19:18:33
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
为什么有的退役军人没收到2026年春节慰问金?有3个原因!

为什么有的退役军人没收到2026年春节慰问金?有3个原因!

阅尽天下大事
2026-02-19 21:36:04
2026-02-20 06:56:49
呼呼历史论
呼呼历史论
分享有趣的历史
414文章数 16394关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

亲子
时尚
本地
数码
军事航空

亲子要闻

妈妈的侥幸,就是孩子的灾难!

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

数码要闻

REDMI耳机新品曝光,满电37小时续航

军事要闻

金正恩出席火箭炮赠送仪式 强调确保朝鲜安全环境

无障碍浏览 进入关怀版