网易首页 > 网易号 > 正文 申请入驻

VLA统一架构新突破:自回归世界模型引领具身智能

0
分享至

本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。

王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。

张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。

从 Sora 到Genie2,从语言驱动的视频生成到世界的交互模拟,世界模型正加速成为连接感知、理解与决策的关键基座。随着视觉 - 语言 - 动作(VLA)模型在具身智能领域的快速发展,多模态之间的边界正被重塑。

然而,现有方法多以语言模态为中心,往往忽视了视觉信息蕴含的丰富时序动态与因果结构。

为此,北京智源研究院联合中国科学院自动化研究所提出UniVLA—— 一种全新的 VLA 模型架构,基于全离散、自回归机制,原生建模视觉、语言与动作信号,并在后训练阶段引入世界模型建模,从大规模视频中学习时序信息与因果逻辑,有效增强了模型在下游决策任务的性能和学习效率。

UniVLA 在 CALVIN、LIBERO、SimplerEnv 等主流具身智能基准上全面刷新多项 SOTA 纪录,并展现出在真机操控和自动驾驶等现实场景中的广泛潜力。

  • 论文标题:Unified Vision-Language-Action Model
  • 网站链接:https://robertwyq.github.io/univla.github.io/
  • 论文链接:https://arxiv.org/abs/2506.19850
  • 代码链接:https://github.com/baaivision/UniVLA

统一视觉 - 语言 - 动作的

全离散自回归模型

该框架将视觉、语言与动作信号统一转化为离散 token,并构建视觉 - 动作交错的多模态时序序列,实现原生统一建模。在训练范式上,采用自回归方式进行学习,不仅高效稳定,更具大规模扩展的潜力。

得益于这种时序化的多模态表示,模型天然支持多种任务的统一训练,包括视觉理解、文生视频、动作预测等,具备良好的通用性与数据扩展能力。

统一的视觉-语言-动作模型架构

世界模型助力下游决策

在这套统一框架下,世界模型的后训练显著提升了下游决策性能,且无需依赖大量动作数据,仅凭海量视频即可高效学习。

对比语言生成图像的训练范式,时序动态信息被证明至关重要;而与纯视频建模相比,多模态语义对齐同样不可或缺。这为机器人从大规模视频中学习真实世界知识打开了新路径,展现出世界模型在多模态感知与决策融合中的巨大潜力。

刷新多项仿真基准纪录

该方法在当前主流的具身仿真基准上 —— 包括 CALVIN、LIBERO 和 SimplerEnv—— 均展现出强劲的性能优势,全面刷新多项任务纪录。

CALVIN 的长程任务评测

LIBERO 的泛化评测

SimplerEnv 的泛化测试

解锁更广应用:

真机双臂操控与端到端驾驶

双臂协作倒水

探索新的VLA技术路径

未来展望

相比于基于视觉语言模型(VLM)拓展而来的 VLA 框架,本文提出了一条全新的技术路线,展现出更大的潜力与探索空间。

一方面,我们构建了一个视频版本的 VLA 架构,使模型能够有效捕捉视频中的时空动态特征,并在推理过程中更充分地利用历史信息;同时,即便缺乏动作标签,模型仅通过大规模视频数据的训练,依然在下游任务中表现出显著优势。

另一方面,我们引入全离散的自回归训练范式,显著提升了训练效率,并为大规模数据下的模型扩展性提供了坚实基础。未来,我们将进一步探索该框架与多模态强化学习的深度融合,推动其在开放世界中的感知、理解与决策能力持续演进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医生告诫:糖尿病初期不是消瘦,而是经常出现这4个症状,需警惕

医生告诫:糖尿病初期不是消瘦,而是经常出现这4个症状,需警惕

王二哥老搞笑
2026-02-08 18:33:58
伊朗装甲车街头碾压抗议者 加拿大强烈谴责

伊朗装甲车街头碾压抗议者 加拿大强烈谴责

桂系007
2026-02-06 07:01:11
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
全新奥迪A6L来了, 双激光雷达超帅,击中年轻人审美!

全新奥迪A6L来了, 双激光雷达超帅,击中年轻人审美!

米粒说车唯一呀
2026-02-08 16:32:38
“呆呆”继摇人按猪之后开直播送春联,近10万网友涌进直播间,当事人:谢谢大家包容,没有嫌弃我字写得丑

“呆呆”继摇人按猪之后开直播送春联,近10万网友涌进直播间,当事人:谢谢大家包容,没有嫌弃我字写得丑

极目新闻
2026-02-08 15:35:40
中方的资本,已经开始不受管控了,政府必须要提高警惕!

中方的资本,已经开始不受管控了,政府必须要提高警惕!

大静吖
2026-02-07 23:30:36
市委实习生刮擦豪车,遭车主暴打敲诈索赔十万,不料对方背景通天

市委实习生刮擦豪车,遭车主暴打敲诈索赔十万,不料对方背景通天

叶天辰故事会
2024-03-27 12:43:10
大S的4.6亿豪宅仍未过户,每月百万房贷待缴纳,具俊晔无权处理

大S的4.6亿豪宅仍未过户,每月百万房贷待缴纳,具俊晔无权处理

素素娱乐
2026-02-08 16:03:48
baby叶柯哭晕!黄晓明新恋情,豪门女友引热议,身家过亿的女企业家

baby叶柯哭晕!黄晓明新恋情,豪门女友引热议,身家过亿的女企业家

八星人
2026-02-07 14:24:03
郭晓东直播,粉丝说他老家房子太旧,郭晓东的话让人心里咯噔一下

郭晓东直播,粉丝说他老家房子太旧,郭晓东的话让人心里咯噔一下

乐悠悠娱乐
2026-02-07 10:28:42
黄俄,突然集体汉化,背后藏着一个被遗忘的真相

黄俄,突然集体汉化,背后藏着一个被遗忘的真相

正直小墨
2026-02-08 16:41:44
中央5台直播乒乓球时间表:2月8日CCTV5直播国乒决赛!亚洲杯赛程

中央5台直播乒乓球时间表:2月8日CCTV5直播国乒决赛!亚洲杯赛程

皮皮观天下
2026-02-08 14:33:11
6人受伤,又有留学生被袭!俄罗斯劳动力不足和越来越多的外国人

6人受伤,又有留学生被袭!俄罗斯劳动力不足和越来越多的外国人

鹰眼Defence
2026-02-08 17:48:06
清零”网贷记录的黄金期到了!这3类人必须立即行动

清零”网贷记录的黄金期到了!这3类人必须立即行动

冒泡泡的鱼儿
2026-02-08 18:46:00
胡兵54岁,身家过亿,独居,北京国贸720平豪宅,衣帽间像专卖店

胡兵54岁,身家过亿,独居,北京国贸720平豪宅,衣帽间像专卖店

百态人间
2026-02-05 15:34:25
RPG新作正面硬刚LGBT群体!狂揽30万愿望单

RPG新作正面硬刚LGBT群体!狂揽30万愿望单

游民星空
2026-02-08 16:37:11
拿中企当冤大头?巴总统喊话长和:需继续维护,新运营到了再交接

拿中企当冤大头?巴总统喊话长和:需继续维护,新运营到了再交接

未来展望
2026-02-08 06:45:34
个人股东分红,不用缴个税了!

个人股东分红,不用缴个税了!

审计之家
2026-01-28 19:58:41
十战十败!张本美和就是打不穿王曼昱,这堵“墙”到底强在哪?

十战十败!张本美和就是打不穿王曼昱,这堵“墙”到底强在哪?

曹老师评球
2026-02-08 14:29:51
属鸡人这辈子,守这三个人到老!

属鸡人这辈子,守这三个人到老!

阿天爱旅行
2026-02-08 18:48:50
2026-02-08 20:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

出口民调显示日本执政联盟将获得众议院过半议席

头条要闻

出口民调显示日本执政联盟将获得众议院过半议席

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

游戏
房产
亲子
公开课
军事航空

全体地铁玩家都能肥肥撤离,《和平精英》这招太狠了

房产要闻

新春三亚置业,看过这个热盘再说!

亲子要闻

萌娃让妈妈开门,还送妈妈两个香吻,太可爱了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

捐钱造航母的男孩登上军舰

无障碍浏览 进入关怀版