清华与南洋理工提出VLA-RL：用强化学习增强机器人大模型|动作|rl|实验

清华与南洋理工提出VLA-RL：用强化学习增强机器人大模型

2025-11-21 09:20:19　来源: 新浪财经

河北举报

分享至

来源：市场资讯

（来源：CAAI认知系统与信息处理专委会）

现在的大模型在语言和视觉上已经非常强大，但在机器人控制领域，如何让机器人像人一样“随机应变”，而不是死板地模仿，一直是个难题。最近，来自清华大学（深圳）和南洋理工大学的研究者们联手，给我们带来了一个非常有意思的方案：VLA-RL。

简单来说，他们不再仅仅依赖于让机器人“看视频、学动作”这种模仿学习（Imitation Learning）的老路子，而是引入了强化学习（Reinforcement Learning, RL），让机器人在与环境的真实互动中“自我探索、自我提升”。这项工作名为《VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning》。

论文标题（半年引用30+）: VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning
作者: Guanxing Lu, Wenkai Guo, Chubin Zhang, Yuheng Zhou, Haonan Jiang, Zifeng Gao, Yansong Tang, Ziwei Wang
机构: 清华大学（深圳），南洋理工大学
论文地址: https://arxiv.org/abs/2505.18719v1
代码仓库（星标330+）: https://github.com/GuanxingLu/vlarl

超越模仿：VLA的瓶颈与RL的破局之道

近期的视觉-语言-动作（Vision-Language-Action, VLA）大模型，通过模仿大量人类操作数据，在机器人操控任务上取得了惊人的进步。它们可以理解复杂的语言指令，并将其转化为机器人的动作。但这种方法的局限性也很明显：它们只能很好地重复数据集中见过的、或非常相似的场景。一旦遇到新的情况（即“分布外”场景），模型的表现就会大打折扣，就像一个只会按剧本演戏的演员，无法即兴发挥。

研究者们认为，要打破这个瓶颈，关键在于从“利用”现有数据转向“探索”未知可能，而这正是强化学习的拿手好戏。通过在线收集数据并根据奖励信号进行优化，RL能让智能体发现比示教数据更优的策略。上图清晰地展示了VLA-RL与传统模仿学习方法的区别，以及它在训练过程中带来的显著性能提升。

VLA-RL：一个为VLA量身打造的强化学习框架

为了将强化学习有效地应用于高容量的VLA模型，作者们提出了一个名为 VLA-RL 的算法和系统框架。这个框架的设计非常有巧思，它将机器人的操作任务重新定义为一个“多模态、多轮次的对话”过程。

整个VLA-RL的系统流程如上图所示，主要包含几个核心部分：

基于Transformer的策略（Policy）: 这就是我们的主角——VLA模型（比如OpenVLA-7B），它负责根据当前的视觉观察和语言指令，生成下一步的动作。
同构的价值模型（Value Model）: 在RL中，价值模型用于评估当前状态的好坏，指导策略模型做出更优的决策。
机器人过程奖励模型（Robotic Process Reward Model, RPRM）: 这是整个框架的亮点之一。在机器人任务中，奖励通常是稀疏的（比如只有任务完成时才有奖励），这让学习变得非常困难。为了解决这个问题，作者们微调了一个预训练的视觉语言模型来充当奖励模型。它能通过“预测下一个合理的动作词元”来为机器人的每一步操作提供密集的奖励信号，极大地加速了学习过程。
向量化的并行环境: 为了提升训练效率，系统可以同时在多个模拟环境中进行探索和数据收集。

稳定训练的“独门秘籍”

将RL应用于VLA这样的大模型极具挑战性，训练过程很容易崩溃。为此，作者们总结并采用了多种稳定和提效技术：

课程选择策略: 让机器人先从简单的任务学起，成功率高了再逐步增加难度。
Critic预热: 在正式开始策略优化前，先单独训练价值网络（Critic），让它对状态价值有一个初步准确的判断，避免早期被“带偏”。
GPU均衡的向量化环境: 优化并行环境的资源分配，提高数据吞吐量。

上方的消融实验结果（Ablation Study）证明了这些技术的重要性。从表格中可以看到，移除任何一项稳定技术都会导致模型性能急剧下降，凸显了VLA-RL框架中每个组成部分的关键作用。

实验效果：显著且持续的性能提升

那么，VLA-RL的实际效果如何呢？作者们在极具挑战性的机器人操作基准LIBERO上进行了充分的实验。LIBERO包含四种类型的任务套件，分别考验模型在空间推理、物体交互、目标导向和长序列任务上的能力。

实验结果令人振奋。

从上方的结果总表中可以看到，VLA-RL（最后一行）在所有任务上的平均成功率达到了 81.0%，相比于强大的模仿学习基线OpenVLA-7B (SFT)，实现了 4.5% 的显著提升，并且在平均排名上遥遥领先。值得注意的是，VLA-RL的性能甚至可以媲美一些先进的商业模型。

更有趣的是，随着RL训练的进行，模型的性能还在持续稳定地提升，这揭示了“测试时计算”的缩放潜力，暗示着机器人在与环境的交互中能变得越来越“聪明”。

RL为何更优？

通过对比模仿学习（SFT）和强化学习（RL）收集到的动作数据分布，我们可以更直观地理解RL的优势。

上图的案例研究展示了在“将黑碗放到盘子上”这个任务中，SFT基线模型在抓取时出现了偏差导致失败，而VLA-RL模型则能精准完成任务。这得益于RL训练让模型在探索中学会了如何更好地处理接触丰富的任务和对齐问题。

此外，从动作覆盖范围的可视化（下图）可以看出，模仿学习的动作（Offline）高度集中，而RL产生的动作（Online）则更广泛地分布于整个动作空间。这意味着RL策略探索了更多可能性，从而获得了比SFT模型更强的鲁棒性。

最后，训练动态分析也表明，随着训练的进行，模型完成任务所需的步骤越来越少，奖励持续增加，这都证明了模型在学习更高效、更可靠的策略。

总结

总而言之，VLA-RL为我们展示了一条非常有前景的道路：通过将可扩展的强化学习与大容量的VLA模型相结合，我们可以让机器人真正地超越模仿，学会在与世界的交互中不断成长。VLer认为，这项工作对于开发更通用、更强大的机器人智能体具有重要的启发意义。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.