网易首页 > 网易号 > 正文 申请入驻

VLA统一架构新突破:自回归世界模型引领具身智能

0
分享至

本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。

王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。

张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。

从 Sora 到Genie2,从语言驱动的视频生成到世界的交互模拟,世界模型正加速成为连接感知、理解与决策的关键基座。随着视觉 - 语言 - 动作(VLA)模型在具身智能领域的快速发展,多模态之间的边界正被重塑。

然而,现有方法多以语言模态为中心,往往忽视了视觉信息蕴含的丰富时序动态与因果结构。

为此,北京智源研究院联合中国科学院自动化研究所提出UniVLA—— 一种全新的 VLA 模型架构,基于全离散、自回归机制,原生建模视觉、语言与动作信号,并在后训练阶段引入世界模型建模,从大规模视频中学习时序信息与因果逻辑,有效增强了模型在下游决策任务的性能和学习效率。

UniVLA 在 CALVIN、LIBERO、SimplerEnv 等主流具身智能基准上全面刷新多项 SOTA 纪录,并展现出在真机操控和自动驾驶等现实场景中的广泛潜力。

  • 论文标题:Unified Vision-Language-Action Model
  • 网站链接:https://robertwyq.github.io/univla.github.io/
  • 论文链接:https://arxiv.org/abs/2506.19850
  • 代码链接:https://github.com/baaivision/UniVLA

统一视觉 - 语言 - 动作的

全离散自回归模型

该框架将视觉、语言与动作信号统一转化为离散 token,并构建视觉 - 动作交错的多模态时序序列,实现原生统一建模。在训练范式上,采用自回归方式进行学习,不仅高效稳定,更具大规模扩展的潜力。

得益于这种时序化的多模态表示,模型天然支持多种任务的统一训练,包括视觉理解、文生视频、动作预测等,具备良好的通用性与数据扩展能力。

统一的视觉-语言-动作模型架构

世界模型助力下游决策

在这套统一框架下,世界模型的后训练显著提升了下游决策性能,且无需依赖大量动作数据,仅凭海量视频即可高效学习。

对比语言生成图像的训练范式,时序动态信息被证明至关重要;而与纯视频建模相比,多模态语义对齐同样不可或缺。这为机器人从大规模视频中学习真实世界知识打开了新路径,展现出世界模型在多模态感知与决策融合中的巨大潜力。

刷新多项仿真基准纪录

该方法在当前主流的具身仿真基准上 —— 包括 CALVIN、LIBERO 和 SimplerEnv—— 均展现出强劲的性能优势,全面刷新多项任务纪录。

CALVIN 的长程任务评测

LIBERO 的泛化评测

SimplerEnv 的泛化测试

解锁更广应用:

真机双臂操控与端到端驾驶

双臂协作倒水

探索新的VLA技术路径

未来展望

相比于基于视觉语言模型(VLM)拓展而来的 VLA 框架,本文提出了一条全新的技术路线,展现出更大的潜力与探索空间。

一方面,我们构建了一个视频版本的 VLA 架构,使模型能够有效捕捉视频中的时空动态特征,并在推理过程中更充分地利用历史信息;同时,即便缺乏动作标签,模型仅通过大规模视频数据的训练,依然在下游任务中表现出显著优势。

另一方面,我们引入全离散的自回归训练范式,显著提升了训练效率,并为大规模数据下的模型扩展性提供了坚实基础。未来,我们将进一步探索该框架与多模态强化学习的深度融合,推动其在开放世界中的感知、理解与决策能力持续演进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WSBK荷兰站第二回合,张雪机车获第7

WSBK荷兰站第二回合,张雪机车获第7

极目新闻
2026-04-19 21:00:45
39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

揽星河的笔记
2026-04-14 15:18:30
第一,张雪机车WSBK荷兰站第二回合热身赛成绩出炉

第一,张雪机车WSBK荷兰站第二回合热身赛成绩出炉

贝壳财经
2026-04-19 17:56:03
全新款奔驰GLS曝光 内饰大改 配主动悬架

全新款奔驰GLS曝光 内饰大改 配主动悬架

沙雕小琳琳
2026-04-19 11:58:40
突发!伊朗,玩命了!

突发!伊朗,玩命了!

财经要参
2026-04-19 09:00:03
1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

干史人
2026-04-14 21:10:03
广东队三消息:徐杰病情、杜锋下课、季后赛对手已确定

广东队三消息:徐杰病情、杜锋下课、季后赛对手已确定

逗比演员说体育
2026-04-19 17:43:58
俄外长刚归国,普京就在开会时发火!但他心中明白:中方已尽力了

俄外长刚归国,普京就在开会时发火!但他心中明白:中方已尽力了

梦醉为红颜一笑
2026-04-18 17:55:00
斯诺克赛程:决出4席16强,丁俊晖首秀,中国4人出场,75双雄上阵

斯诺克赛程:决出4席16强,丁俊晖首秀,中国4人出场,75双雄上阵

刘姚尧的文字城堡
2026-04-19 07:44:16
35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

林轻吟
2026-04-02 19:51:37
便携式气象站应用场景与综合价值

便携式气象站应用场景与综合价值

测控技术有限公司
2026-03-10 15:55:30
先是海参崴,再是图瓦和库页岛,俄罗斯对中国,心态完全变了

先是海参崴,再是图瓦和库页岛,俄罗斯对中国,心态完全变了

观察者小海风
2026-04-17 16:11:00
院士候选人,严重违纪违法,被双开!

院士候选人,严重违纪违法,被双开!

新浪财经
2026-04-19 19:41:09
销量飙升100%,年入千万,百元“睡眠神器”走俏,5亿失眠人福音

销量飙升100%,年入千万,百元“睡眠神器”走俏,5亿失眠人福音

思思夜话
2026-04-17 18:16:02
深夜猝死的人增多!医生反复强调:吃完晚饭后,尽量少做这4件事

深夜猝死的人增多!医生反复强调:吃完晚饭后,尽量少做这4件事

岐黄传人孙大夫
2026-04-18 11:45:03
62年中印战争:肯尼迪与赫鲁晓夫一致认为中国不会开战,也打不过

62年中印战争:肯尼迪与赫鲁晓夫一致认为中国不会开战,也打不过

云霄纪史观
2026-04-19 15:59:01
开拓者VS马刺伤情报告出炉,文班亚马季后赛首秀,杨瀚森有望登场

开拓者VS马刺伤情报告出炉,文班亚马季后赛首秀,杨瀚森有望登场

世界体育圈
2026-04-19 20:16:28
国产光纤全球“爆单”:部分产品价格暴涨650%

国产光纤全球“爆单”:部分产品价格暴涨650%

环球网资讯
2026-04-19 11:16:14
《八千里路云和月》大结局,田家泰牺牲,七哥的真正身份曝光

《八千里路云和月》大结局,田家泰牺牲,七哥的真正身份曝光

情感大头说说
2026-04-19 19:49:30
47岁的李晨,在上海吃包子被偶遇,差点没认出!

47岁的李晨,在上海吃包子被偶遇,差点没认出!

旧时光老师
2026-04-19 20:30:03
2026-04-19 21:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12795文章数 142632关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

数码
房产
旅游
艺术
公开课

数码要闻

何刚晒华为WATCH FIT 5 Pro手表真机,明日亮相

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

旅游要闻

丰台王佐这片花海,真的藏不住了!春天必冲的打卡地标

艺术要闻

俄罗斯画家季莫申科 小幅风景油画写生(二)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版