网易首页 > 网易号 > 正文 申请入驻

GigaAI与中科院、清华联合推出VLA-R1大模型,成功率达75%

0
分享至

在具身人工智能领域,视觉-语言-动作(VLA)模型扮演着核心角色。它通过统一感知、语言理解与动作生成三大能力,实现跨任务、跨场景的泛化,为机器人与真实环境交互提供关键技术支撑。

近年来,VLA领域涌现出诸多代表性成果:VoxPoser凭借视觉语言模型生成3D值图,实现零样本轨迹规划;ManipLVM-R1与RoboBrain则整合可供性感知与姿态估计,提升机器人对“物体可执行何种动作”的判断能力。这些模型通常先通过互联网规模的图像-文本预训练学习跨模态语义,再借助多任务操作数据绑定动作空间,从而具备迁移到未知对象、组合新命令的能力,泛化性能远超传统模块化管道或固定策略模型。

然而,现有的VLA模型存在两大挑战。首先,它们通常缺乏逐步推理:模型倾向于直接发出最终动作,而没有对可供性约束、几何关系或容器选择进行显式推理。这种局限性导致在颜色相似、重复实例或多个候选容器的情况下出现指令消歧失败。其次,训练后很少对推理进行系统性的强化。当前方法依赖于监督式微调(SFT),很少针对推理质量和执行效率进行奖励优化。即使使用强化学习(RL),奖励设计通常也是单目标的,难以同时优化区域对齐和轨迹一致性,从而降低了模型在分布外数据和真实世界场景下的性能。

▍VLA-R1:为机器人注入“思维链”

为了解决这些挑战,来自GigaAI、CASIA和清华大学研究团队最新提出的VLA-R1:一个推理增强型的VLA模型。它的核心框架是:先给定输入图像和自然语言指令,VLA-R1通过视觉-语言骨干网络对多模态信息进行编码,然后通过动作解码器生成底层控制信号。VLA-R1通过两大创新,系统性弥合了推理与执行之间的鸿沟。



高质量的“思维教科书”,VLA-CoT-13K数据集

要想学会推理,首先要有一个好的数据集。以往的数据集规模虽大,但大多只标注了最终的动作或目标,缺乏详细的推理步骤解释。

为此,研究团队开发了“VLA-CoT数据引擎”,生成了一个高质量的数据集VLA-CoT-13K。这个数据集包含了1.3万条标注数据,其独特之处在于,它为每一个任务都提供了清晰的“思维链”。这个思维链一步步地展示了模型应该如何分析场景、理解指令、识别相关物体及其属性、判断空间关系,最后才得出行动方案。更重要的是,这些推理步骤与最终的可供性标注(如边界框)和轨迹标注(如路径点序列)是严格对齐的。


CoT数据引擎


通过在这数据集上进行监督式微调,VLA-R1在初始阶段就学会了在行动之前先进行逻辑推理,为后续的强化学习打下了坚实的基础。



基于可验证奖励的强化学习

仅有基础理论知识还不够,还需要高强度的强化学习来优化推理和执行能力。VLA-R1在监督学习之后,引入了一种名为“基于可验证奖励的强化学习”的后训练策略,并采用“组相对策略优化”算法来提升训练效率。


VLA-R1的整体架构


这套策略的精髓在于设计了三个可验证的奖励信号,如同三位严苛的教练,从不同角度指导模型进步:

区域对齐奖励(GIoU奖励):其专注于评估模型预测的操作区域(比如抓取框)是否与真实的最佳区域精准重叠。它使用一种名为广义交并比的先进指标,即使预测框与真实框没有完全重合,也能提供有意义的梯度反馈,加速模型学习如何准确定位。

轨迹一致性奖励(Fréchet轨迹奖励):负责评判模型生成的动作轨迹是否合理、流畅。它不仅仅看路径点之间的欧氏距离,还综合考虑轨迹的整体形状、运动方向的角度变化以及各段路径的长度比例。这确保了机器人产生的轨迹不仅终点正确,而且整个运动过程也自然、高效。

输出格式奖励:确保模型的输出结构清晰、符合规范。模型必须严格按照要求,先输出标签内的推理过程,再输出...标签内的具体动作。这强制模型形成了先思考、后行动的良好输出习惯,增强了可解释性。

通过这三位“教练”的协同训练,VLA-R1的推理变得更加鲁棒,动作执行也更加精准。

▍卓越的性能:从数字世界到物理现实

经过精心设计的训练流程之后,VLA-R1的表现究竟如何?研究团队在域内、域外、仿真和真实机器人平台上进行了全面评估。

基准测试成绩斐然:在域内数据测试中,VLA-R1在可供性感知任务上达到了36.51的IoU(交并比),比之前最强的基线模型提升了17.78%;在轨迹预测任务上,其综合误差比基线降低了17.25%。更令人印象深刻的是,在分布不同的领域外数据上,VLA-R1同样取得了领先的性能,证明了其强大的泛化能力。


域内和域外性能比较


仿真环境中的稳健表现:在模拟的桌面环境中,研究人员随机变化物体的类别、颜色、位置以及桌面背景,以测试模型的稳健性。VLA-R1在两种不同机器人模型(Piper和UR5)上的测试表明,它在可供性感知任务上平均成功率达到55%,在轨迹执行任务上更是高达70%,远超对比模型。


真实场景下的评估可视化


真实世界中的成功应用:最终考验在真实机器人平台上进行。研究设计了四个具有挑战性的场景:在多种颜色的碗中抓取指定颜色;在重复的水果中识别并抓取指定目标;在存在视觉遮挡(如微波炉门)的情况下进行操作;在多种物体和干扰项并存的混合场景中完成任务。结果,VLA-R1在可供性感知上取得了62.5%的平均成功率,在轨迹执行上达到了75%的成功率,再次证明了其在实际应用中的有效性和鲁棒性。

▍未来与展望

尽管VLA-R1取得了显著的进展,但这项研究仍存在局限性,例如尚未在更复杂的机器人平台(如双臂机器人、四足机器狗)上进行验证。这类平台的动作空间更复杂,现有推理逻辑与奖励设计需进一步扩展。

未来研究将围绕两大方向展开:一是扩展机器人平台适配范围,针对双臂、移动机器人设计专属推理规则(如“双臂协作时的动作时序协调”);二是优化奖励机制,引入 “物理约束奖励”(如 “抓取力控制”“碰撞避免”),进一步提升真实场景中的安全性与鲁棒性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解放台湾,说白了就是要拿到4样东西,其余一概不动留给台湾人

解放台湾,说白了就是要拿到4样东西,其余一概不动留给台湾人

云舟史策
2025-10-28 07:46:55
采购吃回扣是怎样暴露的?看完惊呆,原来自己穷是因为胆太小啊!

采购吃回扣是怎样暴露的?看完惊呆,原来自己穷是因为胆太小啊!

夜深爱杂谈
2025-11-08 20:27:12
华人借证开店要小心啦! 意大利严查已有两家店铺被关闭

华人借证开店要小心啦! 意大利严查已有两家店铺被关闭

椰青美食分享
2025-11-10 02:33:02
1983年一老人微服私访被打,黑老大:我就是法!公安局长连夜跳楼

1983年一老人微服私访被打,黑老大:我就是法!公安局长连夜跳楼

阿胡
2024-02-01 13:20:35
5次射门+造6次机会,阿尔瓦雷斯当选马竞vs莱万特全场最佳

5次射门+造6次机会,阿尔瓦雷斯当选马竞vs莱万特全场最佳

懂球帝
2025-11-09 03:50:06
格力电器的前董事长,绝想不到格力在董明珠管理下会成现在这样了

格力电器的前董事长,绝想不到格力在董明珠管理下会成现在这样了

股灾亲历者
2025-11-09 20:39:35
韩国停用汉字50年,从硬气断根到跪求恢复,追悔莫及想回头

韩国停用汉字50年,从硬气断根到跪求恢复,追悔莫及想回头

华山穹剑
2025-11-09 20:45:22
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
汪峰万万没想到!婚姻里一向不吃亏的自己,竟然拿捏不住章子怡了

汪峰万万没想到!婚姻里一向不吃亏的自己,竟然拿捏不住章子怡了

小娱乐悠悠
2025-11-06 09:53:48
泽连斯基:波克罗夫斯克城内有314名俄军士兵

泽连斯基:波克罗夫斯克城内有314名俄军士兵

山河路口
2025-11-08 13:01:04
武松明明爱上了玉兰,为何又要杀了她?只有潘金莲把他彻底看透

武松明明爱上了玉兰,为何又要杀了她?只有潘金莲把他彻底看透

耳东文史
2025-11-10 00:03:27
根据邵佳一的技战术打法和用人标准,国足新首发11人预测如下

根据邵佳一的技战术打法和用人标准,国足新首发11人预测如下

男足的小球童
2025-11-09 10:13:57
半挂卡车上高速后7天没下,警方察觉不对沿途搜索,打开车门后吐了

半挂卡车上高速后7天没下,警方察觉不对沿途搜索,打开车门后吐了

罪案洞察者
2025-10-29 10:41:32
上海宝妈赢麻了!晒出“天花板”级生育津贴,高达216701.80元…

上海宝妈赢麻了!晒出“天花板”级生育津贴,高达216701.80元…

火山诗话
2025-11-08 14:59:11
突然大反转!深夜利好!A股爆了!

突然大反转!深夜利好!A股爆了!

龙行天下虎
2025-11-09 23:40:37
今年流行的驼色大衣穿搭,教你提升时尚感!

今年流行的驼色大衣穿搭,教你提升时尚感!

小巍解说
2025-11-09 23:39:24
两性关系:为什么73岁以后,女人比男人更希望这些,你真的懂了吗

两性关系:为什么73岁以后,女人比男人更希望这些,你真的懂了吗

荷兰豆爱健康
2025-11-10 02:29:52
创业只用30万,广东90后硬刚大疆,干出1200亿独角兽

创业只用30万,广东90后硬刚大疆,干出1200亿独角兽

毒sir财经
2025-11-08 23:23:36
2016年他们租养鸡场盗墓,2300万卖给香港人,望风的都分了70万

2016年他们租养鸡场盗墓,2300万卖给香港人,望风的都分了70万

收藏大视界
2025-11-03 20:44:38
周末,突发大利好!!!

周末,突发大利好!!!

风风顺
2025-11-09 21:29:21
2025-11-10 03:55:00
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
5911文章数 4552关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

手机
教育
亲子
数码
本地

手机要闻

愈演愈烈!iPhone半夜“偷拨号”持续发酵,疑似iOS26的锅?

教育要闻

收藏!2026艺术类文化课录取分数线要求

亲子要闻

宝妈必学,孩子防侵犯能力中的ACM为什么很重要?

数码要闻

内存、硬盘价格暴涨到扛不住!铭凡官宣旗下迷你主机涨价

本地新闻

这届干饭人,已经把博物馆吃成了食堂

无障碍浏览 进入关怀版