网易首页 > 网易号 > 正文 申请入驻

清华与南洋理工提出VLA-RL:用强化学习增强机器人大模型

0
分享至

来源:市场资讯

(来源:CAAI认知系统与信息处理专委会)

现在的大模型在语言和视觉上已经非常强大,但在机器人控制领域,如何让机器人像人一样“随机应变”,而不是死板地模仿,一直是个难题。最近,来自清华大学(深圳)和南洋理工大学的研究者们联手,给我们带来了一个非常有意思的方案:VLA-RL。

简单来说,他们不再仅仅依赖于让机器人“看视频、学动作”这种模仿学习(Imitation Learning)的老路子,而是引入了强化学习(Reinforcement Learning, RL),让机器人在与环境的真实互动中“自我探索、自我提升”。这项工作名为《VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning》。


  • 论文标题(半年引用30+): VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

  • 作者: Guanxing Lu, Wenkai Guo, Chubin Zhang, Yuheng Zhou, Haonan Jiang, Zifeng Gao, Yansong Tang, Ziwei Wang

  • 机构: 清华大学(深圳),南洋理工大学

  • 论文地址: https://arxiv.org/abs/2505.18719v1

  • 代码仓库(星标330+): https://github.com/GuanxingLu/vlarl

超越模仿:VLA的瓶颈与RL的破局之道

近期的视觉-语言-动作(Vision-Language-Action, VLA)大模型,通过模仿大量人类操作数据,在机器人操控任务上取得了惊人的进步。它们可以理解复杂的语言指令,并将其转化为机器人的动作。但这种方法的局限性也很明显:它们只能很好地重复数据集中见过的、或非常相似的场景。一旦遇到新的情况(即“分布外”场景),模型的表现就会大打折扣,就像一个只会按剧本演戏的演员,无法即兴发挥。


研究者们认为,要打破这个瓶颈,关键在于从“利用”现有数据转向“探索”未知可能,而这正是强化学习的拿手好戏。通过在线收集数据并根据奖励信号进行优化,RL能让智能体发现比示教数据更优的策略。上图清晰地展示了VLA-RL与传统模仿学习方法的区别,以及它在训练过程中带来的显著性能提升。

VLA-RL:一个为VLA量身打造的强化学习框架

为了将强化学习有效地应用于高容量的VLA模型,作者们提出了一个名为 VLA-RL 的算法和系统框架。这个框架的设计非常有巧思,它将机器人的操作任务重新定义为一个“多模态、多轮次的对话”过程。


整个VLA-RL的系统流程如上图所示,主要包含几个核心部分:

  • 基于Transformer的策略(Policy): 这就是我们的主角——VLA模型(比如OpenVLA-7B),它负责根据当前的视觉观察和语言指令,生成下一步的动作。

  • 同构的价值模型(Value Model): 在RL中,价值模型用于评估当前状态的好坏,指导策略模型做出更优的决策。

  • 机器人过程奖励模型(Robotic Process Reward Model, RPRM): 这是整个框架的亮点之一。在机器人任务中,奖励通常是稀疏的(比如只有任务完成时才有奖励),这让学习变得非常困难。为了解决这个问题,作者们微调了一个预训练的视觉语言模型来充当奖励模型。它能通过“预测下一个合理的动作词元”来为机器人的每一步操作提供密集的奖励信号,极大地加速了学习过程。

  • 向量化的并行环境: 为了提升训练效率,系统可以同时在多个模拟环境中进行探索和数据收集。

稳定训练的“独门秘籍”

将RL应用于VLA这样的大模型极具挑战性,训练过程很容易崩溃。为此,作者们总结并采用了多种稳定和提效技术:

  • 课程选择策略: 让机器人先从简单的任务学起,成功率高了再逐步增加难度。

  • Critic预热: 在正式开始策略优化前,先单独训练价值网络(Critic),让它对状态价值有一个初步准确的判断,避免早期被“带偏”。

  • GPU均衡的向量化环境: 优化并行环境的资源分配,提高数据吞吐量。


上方的消融实验结果(Ablation Study)证明了这些技术的重要性。从表格中可以看到,移除任何一项稳定技术都会导致模型性能急剧下降,凸显了VLA-RL框架中每个组成部分的关键作用。

实验效果:显著且持续的性能提升

那么,VLA-RL的实际效果如何呢?作者们在极具挑战性的机器人操作基准LIBERO上进行了充分的实验。LIBERO包含四种类型的任务套件,分别考验模型在空间推理、物体交互、目标导向和长序列任务上的能力。


实验结果令人振奋。


从上方的结果总表中可以看到,VLA-RL(最后一行)在所有任务上的平均成功率达到了 81.0%,相比于强大的模仿学习基线OpenVLA-7B (SFT),实现了 4.5% 的显著提升,并且在平均排名上遥遥领先。值得注意的是,VLA-RL的性能甚至可以媲美一些先进的商业模型。


更有趣的是,随着RL训练的进行,模型的性能还在持续稳定地提升,这揭示了“测试时计算”的缩放潜力,暗示着机器人在与环境的交互中能变得越来越“聪明”。

RL为何更优?

通过对比模仿学习(SFT)和强化学习(RL)收集到的动作数据分布,我们可以更直观地理解RL的优势。


上图的案例研究展示了在“将黑碗放到盘子上”这个任务中,SFT基线模型在抓取时出现了偏差导致失败,而VLA-RL模型则能精准完成任务。这得益于RL训练让模型在探索中学会了如何更好地处理接触丰富的任务和对齐问题。

此外,从动作覆盖范围的可视化(下图)可以看出,模仿学习的动作(Offline)高度集中,而RL产生的动作(Online)则更广泛地分布于整个动作空间。这意味着RL策略探索了更多可能性,从而获得了比SFT模型更强的鲁棒性。


最后,训练动态分析也表明,随着训练的进行,模型完成任务所需的步骤越来越少,奖励持续增加,这都证明了模型在学习更高效、更可靠的策略。


总结

总而言之,VLA-RL为我们展示了一条非常有前景的道路:通过将可扩展的强化学习与大容量的VLA模型相结合,我们可以让机器人真正地超越模仿,学会在与世界的交互中不断成长。VLer认为,这项工作对于开发更通用、更强大的机器人智能体具有重要的启发意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

混沌录
2025-09-17 23:25:04
被判违规!国安遭扣分后“硬刚”足协,媒体人曝光“罪证”来源

被判违规!国安遭扣分后“硬刚”足协,媒体人曝光“罪证”来源

体坛鉴春秋
2026-01-29 16:58:21
中央明确:2026年独生子女或将迎来4大补贴,这些条件满足就能领

中央明确:2026年独生子女或将迎来4大补贴,这些条件满足就能领

复转这些年
2026-01-28 15:42:16
涉嫌严重违纪违法!贵州省铜仁市碧江区委书记席龙海任上被查

涉嫌严重违纪违法!贵州省铜仁市碧江区委书记席龙海任上被查

大众新闻报社记者
2026-01-29 16:54:32
尼帕病毒杀疯了!紧急喊停4种饭,提前做好3件事能救命!

尼帕病毒杀疯了!紧急喊停4种饭,提前做好3件事能救命!

路医生健康科普
2026-01-29 14:19:39
婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

五元讲堂
2026-01-26 11:26:26
婶婶卖牛供我考上北大,如今我年薪千万,婶婶来借钱我只回了6个字

婶婶卖牛供我考上北大,如今我年薪千万,婶婶来借钱我只回了6个字

黄家湖的忧伤
2026-01-27 16:58:10
阿门拒投一战遭休媒狂批:4米无人不敢投 可作交易筹码 绝非球星

阿门拒投一战遭休媒狂批:4米无人不敢投 可作交易筹码 绝非球星

颜小白的篮球梦
2026-01-29 13:34:35
父亲砸门打女儿后续:监控画面曝光,狠抽女儿巴掌,邻居透露更多

父亲砸门打女儿后续:监控画面曝光,狠抽女儿巴掌,邻居透露更多

丁丁鲤史纪
2026-01-28 18:34:30
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
黄仁勋又出圈!英伟达员工年终奖曝光,网友破大防

黄仁勋又出圈!英伟达员工年终奖曝光,网友破大防

雷科技
2026-01-28 18:54:37
说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

书纪文谭
2026-01-29 15:23:40
猛男落泪,骑士主场致敬詹姆斯!再创历史,上场时间达成历史第一

猛男落泪,骑士主场致敬詹姆斯!再创历史,上场时间达成历史第一

篮球看比赛
2026-01-29 18:29:41
上海交大发现:体内有恶性肿瘤的人,身体一般或可能有4个表现?

上海交大发现:体内有恶性肿瘤的人,身体一般或可能有4个表现?

蜉蝣说
2026-01-29 14:34:18
性行为竟能抗癌?华科大研究让人震惊!

性行为竟能抗癌?华科大研究让人震惊!

特约前排观众
2026-01-28 00:20:03
人类史上首次“返老还童”人体临床试验获美国FDA批准!

人类史上首次“返老还童”人体临床试验获美国FDA批准!

徐德文科学频道
2026-01-28 21:16:22
身家1550亿美元的黄仁勋,来深圳参加年会;深圳一企业宣布:发1亿元“年终奖”!不是给员工…… |深商

身家1550亿美元的黄仁勋,来深圳参加年会;深圳一企业宣布:发1亿元“年终奖”!不是给员工…… |深商

深圳梦
2026-01-28 23:35:39
美媒:中国不是伊拉克,要想战胜中国,需从现在囤积第五代弹药?

美媒:中国不是伊拉克,要想战胜中国,需从现在囤积第五代弹药?

Ck的蜜糖
2026-01-29 17:44:53
明晚开播!CCTV8黄金档又一部好剧来袭!阵容好强

明晚开播!CCTV8黄金档又一部好剧来袭!阵容好强

老吴教育课堂
2026-01-29 17:26:05
19年穆沙拉夫被判死刑,巴法庭还要求悬尸三天,军方公开严厉斥责

19年穆沙拉夫被判死刑,巴法庭还要求悬尸三天,军方公开严厉斥责

叹为观止易
2026-01-29 13:58:35
2026-01-29 18:43:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057552文章数 5302关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

本地
时尚
数码
游戏
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

28亿次播放:她这段感情,后劲越来越猛

数码要闻

屏幕“通透”终于有谱了!京东方发布行业首个标准 四大量化参数

『信长之野望 霸道』 举办「繁中玩家支援特别活动」 送出豪华奖品!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版