网易首页 > 网易号 > 正文 申请入驻

给机器人装上“任务直觉”,UniVLA实现一学多用,轻松跨界操作

0
分享至

在大语言模型(LLM)的训练过程中,我们已经见证了一个令人瞩目的现象:大语言模型能够跨越语言差异,学习理解相同的知识。这背后,是模型对知识本质的深度抽象——将“机器人”与“ROBOT”这类表面符号的差异剥离,聚焦于它们所共同指向的概念:“一类通过编程与自动控制,能够自主完成任务的智能体。”

这不禁引发了我们的思考:如果语言模型能够做到跨语言抽象知识,那么具身智能是否也能做到跨任务、跨环境地抽象动作的本质?换句话说,我们是否可以让机器人像大语言模型一样,通过“观看视频”自主学习各类任务中动作的共性,忽略硬件差异、拍摄视角、环境细节,从而朝着通用控制的目标迈进?

最近,来自香港大学的团队就基于这一思考提出了全新框架——UniVLA,一个跨本体、跨场景、跨任务的通用策略学习系统,就像为机器人安装了“跨界大脑”,实现了从“看视频”、“听指令”到“动手操作”的通用控制。

论文标题: UniVLA: Learning to Act Anywhere with Task-centric Latent Actions 论文链接: https://www.arxiv.org/abs/2505.06111 代码链接: https://github.com/OpenDriveLab/UniVLA

以往的通用模型如 RT-2、OpenVLA 虽已初具通用模型之势,但依然存在诸多瓶颈:

  • 对动作标签强依赖:训练时必须大量人工采集的真机示范数据,费时费力又难scale up。

  • 缺乏通用性和跨平台适配能力:换个机器人,动作空间就全得重来。

  • 推理慢且精度不稳:自回归预测方式对错误累积敏感,执行效率不高。

UniVLA 选择了一条更具前瞻性的路径:不再直接预测每一步动作,而是构建一个任务中心的潜在动作空间,在这个“中间表征”上统一训练与泛化策略,不仅可以有效解决上述瓶颈,同时也能够以更低的计算资源消耗实现更优的效果。

UniVLA 的核心创新在于构建了以任务为中心的潜在动作空间(Task-Centric Latent Action Space),彻底抛弃了对动作标签的依赖,让模型可以从海量无标签视频中也可以学习任务相关且高效泛化的动作表示,只在人类视频数据(Ego4D)上预训练,也可以在 LIBERO 仿真平台上达到 SOTA 级别效果。经过预训练后同一模型也可以同时完成操作和导航等任务,实现了通用的动作学习。

UniVLA - 跨本体、跨场景、跨任务的通用策略 一、为什么是潜在动作?因为它既“压缩信息”,又“对齐知识”

传统的通用模型如 OpenVLA 采用自回归策略直接预测每一步动作,推理速度慢且鲁棒性不强。UniVLA 则另辟蹊径,将动作预测划分为三个阶段:

  • 潜在动作学习:从海量跨领域视频中“默默学习”,通过逆动力学建模并使用VQ-VAE进行离散化,依靠语言指令构建出对任务理解更强、更紧凑的潜在动作空间。

  • 通用策略预训练:借助 Prismatic-7B 等大模型架构,将视觉观察与语言指令编码为统一输入,预测潜在动作序列,从而实现具身无关的通用策略。

  • 动作解码与部署:使用轻量化解码器将潜在动作转译为真实机器人控制信号,作为下游的控制策略,从而能够在多个机器人平台上进行快速适配和部署,不论是何种机械臂,都能轻装上阵,高效执行。

UniVLA 的前两阶段训练策略

相比 OpenVLA 那种直接在动作空间里“硬解”的做法,UniVLA 的“隐式编码”(Latent Encoding)策略有几个显著优势:

  • 不依赖动作标签,泛化范围大:只需视频和语言,就能从互联网视频数据中学技能,提取动作。

  • 压缩维度,降低计算成本:动作空间被有效压缩,推理速度从小于 5Hz 提升至 10Hz以上。

  • 适配灵活,迁移效率高:由于潜在动作具有通用性,故只需轻量微调,就能部署到不同机器人上,下游数据效率拉满。

二、数据算力所需更少,性能反而更强相比

OpenVLA,UniVLA 在计算效率和适配能力上表现出压倒性优势:预训练GPU时长仅为其 1/20,却在多个任务和平台上实现性能的全面超越。

在 LIBERO、CALVIN 等多个操控基准测试中,UniVLA 展现出优越的通用性与任务适应能力,在四项评估指标中成功率平均提升达18.5%。此外,在单靠人类视频预训练(Ego4D)时,UniVLA 也能击败用大量真实机器人数据训练的对手,在 LIBERO 中达到 SOTA 效果。

LIBERO 实验结果

更重要的是,UniVLA 以其结构化的潜在动作空间设计,天然具备扩展性与数据可扩展性:无论是引入更多人类示范作为提取隐空间表征的与训练,还是增加新的机器人平台仅通过轻量微调即可迁移适配,实现跨具身、跨视角、跨任务的全面通用。

在真实机器部署中,受益于仅 12M 参数的简单动作解码器以及高效的隐空间动作表征,UniVLA 可以实现(闭环)10Hz 以上的实时推理控制,在多个任务中(如“清理案板”、“叠汉诺塔”等)展现出高精度、高鲁棒的操作能力,平均成功率达到 80%以上,推理时延远低于 OpenVLA,打通了通用大模型到落地应用的可能路径

UniVLA在真机实验表现出色

同时在设计的若干泛化实验中,面对各种泛化挑战,它不仅不社恐,还能“快准稳”上手。通用的潜在动作空间+异构数据的预训练,让它不止是“聪明”,而且真·“通用”。

UniVLA 在不同泛化条件下的表现

多亏了 UniVLA 的 “潜在动作+通用训练”,UniVLA 能够充分在大量异构数据(操作、导航甚至人类视频)中进行学习,并能够有效容纳足够多的知识,照单全收,越学越强。

UniVLA 的异构数据扩展能力

少样本情况下 UniVLA 性能优势尽显,在 LIBERO 长程任务基准上仅用 10% 数据(不到50条 demo,平均每个任务仅 5 条)击败了全量数据微调的 OpenVLA。

UniVLA 在少样本情况下的表现

UniVLA 的方法不仅代表了视觉语言动作模型(VLA)领域的一次突破,更为“通用机器人智能”提供了新的思考与贡献:从像素重建走向语义解耦的潜在动作学习、从高耗能预训练走向轻量高效的跨本体适配、从单一机器人数据闭环走向人类视频与多本体数据的开放协同


来源: 公众号【OpenDriveLab】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万科创始人王石妻子疑似评论郁亮“抓”

万科创始人王石妻子疑似评论郁亮“抓”

地产微资讯
2026-01-09 18:00:51
张本智和3-1周启豪晋级!连克两国乒选手士气如虹 世界排名升第三

张本智和3-1周启豪晋级!连克两国乒选手士气如虹 世界排名升第三

颜小白的篮球梦
2026-01-09 18:42:12
美国海岸警卫队登上“奥利娜”油轮

美国海岸警卫队登上“奥利娜”油轮

界面新闻
2026-01-09 21:42:11
这么冷,那么贵:河北农村的第八个寒冬

这么冷,那么贵:河北农村的第八个寒冬

水瓶纪元
2026-01-07 18:27:32
周琦:很多国外球员挺看不起亚洲人,职业生涯最多十几年需要为以后考虑

周琦:很多国外球员挺看不起亚洲人,职业生涯最多十几年需要为以后考虑

懂球帝
2026-01-09 19:34:07
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
山姆499元羽绒服充绒400克卖爆,多个门店已断货,二手平台有人加价数十元出售,客服:补货时间未知

山姆499元羽绒服充绒400克卖爆,多个门店已断货,二手平台有人加价数十元出售,客服:补货时间未知

极目新闻
2026-01-09 12:45:05
现场腾起巨大火球!美空军一架F16C战机坠毁 ,飞行员弹射逃生

现场腾起巨大火球!美空军一架F16C战机坠毁 ,飞行员弹射逃生

每日经济新闻
2026-01-09 16:38:02
闫学晶儿子上新疆班风波升级!大量博主吐槽其违规,网友义愤填膺

闫学晶儿子上新疆班风波升级!大量博主吐槽其违规,网友义愤填膺

小徐讲八卦
2026-01-09 10:41:44
驻柬使馆找回的吴姓女子身体好转,收治医院:已出院准备回国

驻柬使馆找回的吴姓女子身体好转,收治医院:已出院准备回国

澎湃新闻
2026-01-09 20:54:26
伊朗断网之夜:一场数字铁幕下的中东暗战

伊朗断网之夜:一场数字铁幕下的中东暗战

民言民语
2026-01-09 09:05:50
岛内担心赖清德被捕,沉默4天后,大陆通知全世界,统派大佬扛旗

岛内担心赖清德被捕,沉默4天后,大陆通知全世界,统派大佬扛旗

素年文史
2026-01-08 16:29:05
买洗碗机遭丈夫砸家后续:生病还乱花钱,负债20万,知情人曝更多

买洗碗机遭丈夫砸家后续:生病还乱花钱,负债20万,知情人曝更多

丁丁鲤史纪
2026-01-09 16:00:11
天安门原升旗手张自轩结婚,岳父豪送奥迪A6,新娘身份不一般

天安门原升旗手张自轩结婚,岳父豪送奥迪A6,新娘身份不一般

八斗小先生
2026-01-08 18:19:01
彭清华会见伊朗确定国家利益委员会考察团

彭清华会见伊朗确定国家利益委员会考察团

新华社
2026-01-09 20:27:05
谢贤前女友大曝恋爱私隐!三年不碰她,却每天给她做“四哥菜芯”

谢贤前女友大曝恋爱私隐!三年不碰她,却每天给她做“四哥菜芯”

阿纂看事
2026-01-09 10:19:00
邀约偷铁皮遭拒绝,云南一61岁老妇杀害13岁男孩,一审获死刑

邀约偷铁皮遭拒绝,云南一61岁老妇杀害13岁男孩,一审获死刑

红星新闻
2026-01-09 18:09:30
伊朗直接关闭了互联网!各地的骚乱和抗议已经让伊朗高层极为不安

伊朗直接关闭了互联网!各地的骚乱和抗议已经让伊朗高层极为不安

我心纵横天地间
2026-01-09 16:37:42
3-1逆转早田希娜!中国女乒21岁世界冠军闪耀:进化变第三巨头?

3-1逆转早田希娜!中国女乒21岁世界冠军闪耀:进化变第三巨头?

李喜林篮球绝杀
2026-01-09 18:09:24
港媒突然曝料澳门赌业大亨“洗米华”与千亿电诈头目存在巨额交易!陈志1000多亿资产被封,美国“偷走”九成

港媒突然曝料澳门赌业大亨“洗米华”与千亿电诈头目存在巨额交易!陈志1000多亿资产被封,美国“偷走”九成

澳门月刊
2026-01-09 09:18:41
2026-01-10 00:43:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

特朗普称不想在任期内让大陆改变台湾现状 外交部回应

头条要闻

特朗普称不想在任期内让大陆改变台湾现状 外交部回应

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

亲子
健康
艺术
数码
公开课

亲子要闻

爸爸拿吃的下达指令后兄弟俩的动作神同步

这些新疗法,让化疗不再那么痛苦

艺术要闻

扑面而来的激情:俄罗斯画家斯拉因斯基 大笔触绘画作品!

数码要闻

智能厨电迈入大模型时代,中国厨电想从“学生”变“老师”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版