网易首页 > 网易号 > 正文 申请入驻

给机器人装上“任务直觉”,UniVLA实现一学多用,轻松跨界操作

0
分享至

在大语言模型(LLM)的训练过程中,我们已经见证了一个令人瞩目的现象:大语言模型能够跨越语言差异,学习理解相同的知识。这背后,是模型对知识本质的深度抽象——将“机器人”与“ROBOT”这类表面符号的差异剥离,聚焦于它们所共同指向的概念:“一类通过编程与自动控制,能够自主完成任务的智能体。”

这不禁引发了我们的思考:如果语言模型能够做到跨语言抽象知识,那么具身智能是否也能做到跨任务、跨环境地抽象动作的本质?换句话说,我们是否可以让机器人像大语言模型一样,通过“观看视频”自主学习各类任务中动作的共性,忽略硬件差异、拍摄视角、环境细节,从而朝着通用控制的目标迈进?

最近,来自香港大学的团队就基于这一思考提出了全新框架——UniVLA,一个跨本体、跨场景、跨任务的通用策略学习系统,就像为机器人安装了“跨界大脑”,实现了从“看视频”、“听指令”到“动手操作”的通用控制。

论文标题: UniVLA: Learning to Act Anywhere with Task-centric Latent Actions 论文链接: https://www.arxiv.org/abs/2505.06111 代码链接: https://github.com/OpenDriveLab/UniVLA

以往的通用模型如 RT-2、OpenVLA 虽已初具通用模型之势,但依然存在诸多瓶颈:

  • 对动作标签强依赖:训练时必须大量人工采集的真机示范数据,费时费力又难scale up。

  • 缺乏通用性和跨平台适配能力:换个机器人,动作空间就全得重来。

  • 推理慢且精度不稳:自回归预测方式对错误累积敏感,执行效率不高。

UniVLA 选择了一条更具前瞻性的路径:不再直接预测每一步动作,而是构建一个任务中心的潜在动作空间,在这个“中间表征”上统一训练与泛化策略,不仅可以有效解决上述瓶颈,同时也能够以更低的计算资源消耗实现更优的效果。

UniVLA 的核心创新在于构建了以任务为中心的潜在动作空间(Task-Centric Latent Action Space),彻底抛弃了对动作标签的依赖,让模型可以从海量无标签视频中也可以学习任务相关且高效泛化的动作表示,只在人类视频数据(Ego4D)上预训练,也可以在 LIBERO 仿真平台上达到 SOTA 级别效果。经过预训练后同一模型也可以同时完成操作和导航等任务,实现了通用的动作学习。

UniVLA - 跨本体、跨场景、跨任务的通用策略 一、为什么是潜在动作?因为它既“压缩信息”,又“对齐知识”

传统的通用模型如 OpenVLA 采用自回归策略直接预测每一步动作,推理速度慢且鲁棒性不强。UniVLA 则另辟蹊径,将动作预测划分为三个阶段:

  • 潜在动作学习:从海量跨领域视频中“默默学习”,通过逆动力学建模并使用VQ-VAE进行离散化,依靠语言指令构建出对任务理解更强、更紧凑的潜在动作空间。

  • 通用策略预训练:借助 Prismatic-7B 等大模型架构,将视觉观察与语言指令编码为统一输入,预测潜在动作序列,从而实现具身无关的通用策略。

  • 动作解码与部署:使用轻量化解码器将潜在动作转译为真实机器人控制信号,作为下游的控制策略,从而能够在多个机器人平台上进行快速适配和部署,不论是何种机械臂,都能轻装上阵,高效执行。

UniVLA 的前两阶段训练策略

相比 OpenVLA 那种直接在动作空间里“硬解”的做法,UniVLA 的“隐式编码”(Latent Encoding)策略有几个显著优势:

  • 不依赖动作标签,泛化范围大:只需视频和语言,就能从互联网视频数据中学技能,提取动作。

  • 压缩维度,降低计算成本:动作空间被有效压缩,推理速度从小于 5Hz 提升至 10Hz以上。

  • 适配灵活,迁移效率高:由于潜在动作具有通用性,故只需轻量微调,就能部署到不同机器人上,下游数据效率拉满。

二、数据算力所需更少,性能反而更强相比

OpenVLA,UniVLA 在计算效率和适配能力上表现出压倒性优势:预训练GPU时长仅为其 1/20,却在多个任务和平台上实现性能的全面超越。

在 LIBERO、CALVIN 等多个操控基准测试中,UniVLA 展现出优越的通用性与任务适应能力,在四项评估指标中成功率平均提升达18.5%。此外,在单靠人类视频预训练(Ego4D)时,UniVLA 也能击败用大量真实机器人数据训练的对手,在 LIBERO 中达到 SOTA 效果。

LIBERO 实验结果

更重要的是,UniVLA 以其结构化的潜在动作空间设计,天然具备扩展性与数据可扩展性:无论是引入更多人类示范作为提取隐空间表征的与训练,还是增加新的机器人平台仅通过轻量微调即可迁移适配,实现跨具身、跨视角、跨任务的全面通用。

在真实机器部署中,受益于仅 12M 参数的简单动作解码器以及高效的隐空间动作表征,UniVLA 可以实现(闭环)10Hz 以上的实时推理控制,在多个任务中(如“清理案板”、“叠汉诺塔”等)展现出高精度、高鲁棒的操作能力,平均成功率达到 80%以上,推理时延远低于 OpenVLA,打通了通用大模型到落地应用的可能路径

UniVLA在真机实验表现出色

同时在设计的若干泛化实验中,面对各种泛化挑战,它不仅不社恐,还能“快准稳”上手。通用的潜在动作空间+异构数据的预训练,让它不止是“聪明”,而且真·“通用”。

UniVLA 在不同泛化条件下的表现

多亏了 UniVLA 的 “潜在动作+通用训练”,UniVLA 能够充分在大量异构数据(操作、导航甚至人类视频)中进行学习,并能够有效容纳足够多的知识,照单全收,越学越强。

UniVLA 的异构数据扩展能力

少样本情况下 UniVLA 性能优势尽显,在 LIBERO 长程任务基准上仅用 10% 数据(不到50条 demo,平均每个任务仅 5 条)击败了全量数据微调的 OpenVLA。

UniVLA 在少样本情况下的表现

UniVLA 的方法不仅代表了视觉语言动作模型(VLA)领域的一次突破,更为“通用机器人智能”提供了新的思考与贡献:从像素重建走向语义解耦的潜在动作学习、从高耗能预训练走向轻量高效的跨本体适配、从单一机器人数据闭环走向人类视频与多本体数据的开放协同


来源: 公众号【OpenDriveLab】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯前驻华大使表白中国:我是老北京,除了爱什么都不添加

俄罗斯前驻华大使表白中国:我是老北京,除了爱什么都不添加

澎湃新闻
2026-05-19 16:03:11
iPhone 18 Pro发布日期预测:9月14日或9月9日

iPhone 18 Pro发布日期预测:9月14日或9月9日

CNMO科技
2026-05-19 07:00:59
世界女排联赛即将开战!最新排协管理团队曝光,朱婷承担起应有

世界女排联赛即将开战!最新排协管理团队曝光,朱婷承担起应有

林子说事
2026-05-19 19:36:06
苹果首款折叠屏敲定!搭载无折痕铰链 落后OPPO足足半年

苹果首款折叠屏敲定!搭载无折痕铰链 落后OPPO足足半年

快科技
2026-05-19 20:12:07
中国电信推出试商用Token套餐:个人及家庭月费9.9元/1000万Tokens起,开发者及中小微企业39.9元/1500万Tokens起

中国电信推出试商用Token套餐:个人及家庭月费9.9元/1000万Tokens起,开发者及中小微企业39.9元/1500万Tokens起

金融界
2026-05-17 19:09:22
俄版052D已经造到第九艘,火力比052C还猛,这就是不买052D的理由

俄版052D已经造到第九艘,火力比052C还猛,这就是不买052D的理由

锋芒点兵
2026-05-19 17:49:51
动手了!中国海警抵近中业岛,人员冲上礁,海警船随时戒备

动手了!中国海警抵近中业岛,人员冲上礁,海警船随时戒备

阿龙聊军事
2026-05-19 05:19:21
吓出表情包,努内斯以为胡桑诺夫要将足总杯奖杯扔上看台

吓出表情包,努内斯以为胡桑诺夫要将足总杯奖杯扔上看台

懂球帝
2026-05-19 17:16:34
23岁因球场暴力而入狱,26岁在英超上演头球帽子戏法,悍将太鲁莽

23岁因球场暴力而入狱,26岁在英超上演头球帽子戏法,悍将太鲁莽

足篮大世界
2026-05-19 20:01:22
中国股市:炒股发财的永远只有一种人,献给两亿股民的最真诚忠告

中国股市:炒股发财的永远只有一种人,献给两亿股民的最真诚忠告

股经纵横谈
2026-05-19 20:16:04
柳州地震后一小区楼体出现裂缝?社区回应:系墙皮开裂,不影响正常居住

柳州地震后一小区楼体出现裂缝?社区回应:系墙皮开裂,不影响正常居住

黄河新闻网吕梁
2026-05-19 15:25:24
普京访华前,特朗普突然变卦,事关重大,北京态度成关键

普京访华前,特朗普突然变卦,事关重大,北京态度成关键

靓仔情感
2026-05-19 18:56:38
降价2000元后 苹果iPhone 17系列拿下618单品销量前三

降价2000元后 苹果iPhone 17系列拿下618单品销量前三

CNMO科技
2026-05-19 10:23:33
12小时航程1万公里,全程不加油,特朗普的空军一号,我国能造吗

12小时航程1万公里,全程不加油,特朗普的空军一号,我国能造吗

泠泠说史
2026-05-14 21:50:29
得知陈赓被评开国大将,战俘在狱中感慨:若没意外,我也会是大将

得知陈赓被评开国大将,战俘在狱中感慨:若没意外,我也会是大将

兴趣知识
2026-05-18 18:07:57
离京即反转!中方清单一出,500架波音落空,美方大单缩水

离京即反转!中方清单一出,500架波音落空,美方大单缩水

霁寒飘雪
2026-05-19 19:25:05
太狂!特朗普点名警告后,赖清德直接对大陆摊牌,解放军该出手了

太狂!特朗普点名警告后,赖清德直接对大陆摊牌,解放军该出手了

流史岁月
2026-05-18 17:00:08
新生儿腰斩、房价下跌?别怪政策了,这才是中国经济的残酷真相!

新生儿腰斩、房价下跌?别怪政策了,这才是中国经济的残酷真相!

冷夜说
2026-05-11 20:31:08
高三晒家长“开天窗”穿搭,被嘲:该端庄的时候,你解扣子干嘛?

高三晒家长“开天窗”穿搭,被嘲:该端庄的时候,你解扣子干嘛?

妍妍教育日记
2026-05-10 11:50:07
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
2026-05-19 20:52:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2380文章数 596关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

男子花20多万买到洗白"试验车" 结果被强制注销成废铁

头条要闻

男子花20多万买到洗白"试验车" 结果被强制注销成废铁

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

从卖流量到卖Token,运营商算力生意破局

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

健康
本地
艺术
家居
公开课

专家揭秘干细胞回输的安全风险

本地新闻

别搜晋江小说了,去看真的晋江

艺术要闻

丁一林油画风景写生新作(2026年5月)

家居要闻

观山隐秀 心灵沉淀

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版