网易首页 > 网易号 > 正文 申请入驻

RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL...

0
分享至

来源:市场资讯

(来源:机器之心)

在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


  • 论文标题:What Can RL Bring to VLA Generalization? An Empirical Study

  • 项目网站和代码:https://rlvla.github.io/

  • 论文地址:https://arxiv.org/abs/2505.19789

为了解决 VLA 模型泛化能力有限的问题,研究团队构建了一个涵盖多种视觉、语义和执行挑战的全新评测基准,并系统性地对比了强化学习(RL)和传统有监督微调(SFT)在提升模型泛化性上的表现。通过大量实验发现:采用 PPO 等强化学习算法微调 VLA,不仅显著提升了模型在语义理解和任务执行上的鲁棒性,还能在视觉变化场景下保持与 SFT 相当的表现。同时提出了一套简单高效的 PPO 训练方案,使得强化学习在 VLA 领域的应用更加实用和高效。

具身基础模型:开源 OpenVLA 大模型


研究团队采用了目前 SoTA 之一的开源 OpenVLA 模型为基础进行研究。OpenVLA 从 Llama2-7b 微调而来,在每一个时间步,接收一张 RGB 图像和一条指令(即历史长度 H=1),并输出一系列离散的动作 token 控制机械臂行动。

问题 1:何种 RL 方法更好?

研究团队测试了三种在大语言模型领域广受认可的强化学习算法,包括 RLHF 中常用的 PPO(近端策略优化)和 DPO(直接偏好优化),以及在数学等推理任务中展现出色的 GRPO(组相对策略优化)。


实验结果令人意外:在机器人控制这一多步决策任务中,经典的 PPO 算法展现出了显著优势,而专为语言模型设计的 DPO 和 GRPO 却难以高效学习。研究团队分析认为,这源于机器人任务的部分可观测马尔可夫决策过程(POMDP)特性 —— 每个动作都会改变环境状态,这种非平稳性可能破坏了 GRPO 的优势估计稳定性。而 DPO 面临的挑战则在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移。


问题 2:如何实现高效的 PPO 训练?

为了让 PPO 在 VLA 模型上高效运行,研究团队提出了三个关键创新。

1. 共享 Actor-Critic 架构设计:让 Actor 和 Critic 共享同一个主干网络,仅在最后添加一个轻量级的 MLP 作为价值头。这一设计将显存占用减少了 45%,训练速度提升 35%,还保持了相当的性能表现。


2. VLA 模型预热策略:使用 140 条高质量轨迹对模型进行预热,此步骤让后续的强化学习收敛速度提升 50%,大幅减少了所需的环境交互次数。

3. 最小化 PPO 训练轮次:传统 PPO 通常会对每批数据进行多轮梯度更新,但研究发现在 VLA 场景下,将 PPO 训练轮次(epoch)设为 1 就已足够 —— 更多的更新轮次不仅无法提升性能,反而会增加训练时间。通过这一优化,整个训练过程在单张 A100 GPU 上仅需 42 小时即可收敛。


问题 3:SFT 和 RL 的对比

为了公平比较,研究团队首先探究了 SFT 的数据规模上限。研究团队使用动作规划器(Motion Planner)采集了不同规模的 SFT 数据集,实验显示,当演示轨迹数量达到 16,000 条(约 126 万个状态 - 动作对)时,无论是训练分布内、还是分布外新物体 / 桌面的 SFT 性能都趋于饱和。

然而对于 RL,虽然收敛时训练分布内任务性能与 SFT 相当,但是在分布外任务上却取得了 42.6% 的性能提升,这展现出 RL 具有更强的泛化性。


为了深入剖析泛化性差异,研究团队基于 ManiSkill 仿真器构建了一个全面的评测基准,从视觉(如动态纹理、新桌面)、语义(如未见物体、指令变体)和执行(如物体位置变化、机器人初始姿态)三个维度系统地对泛化能力进行拆解。


实验结果清晰地展现了 RL 的优势:RL 在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时;在执行鲁棒性方面更是大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,RL 都展现出了显著更强的适应能力;而在视觉泛化上,两种方法表现相当。


通过对具体案例的可视化分析,研究团队发现了更深层的差异。在强噪声干扰下,SFT 策略会在抓取物体后反复掉落,而 RL 策略能够稳定完成任务。面对未见物体时,SFT 容易陷入重复尝试抓取已持有物体的死循环,RL 则能正确判断并完成放置。最引人注目的是执行轨迹分布的差异:RL 探索了更广阔的工作空间和更丰富的末端执行器姿态,而 SFT 的轨迹则紧密聚集在演示数据的运动规划路径周围。这种更广泛的覆盖或许解释了 RL 在执行任务上具有的优越泛化能力。


这项研究不仅为 VLA 模型的训练提供了新的方向,更重要的是证明了强化学习在构建真正通用的具身智能体中的核心价值。随着机器人应用场景日益复杂多变,这种能够通过试错学习、自主适应新环境的能力将变得愈发重要。

团队致力于研究强化学习在 VLA 中的运用,开源了首个面向具身智能的 “渲训推一体化” 大规模强化学习框架 RLinf(https://github.com/RLinf/RLinf),更多大规模的实验结果参见网站。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
本菲卡2-1圣克拉拉,帕夫利季斯破门

本菲卡2-1圣克拉拉,帕夫利季斯破门

懂球帝
2026-02-14 04:35:14
大疆员工称多名女同事口臭,聊天时需捂鼻引发热议。

大疆员工称多名女同事口臭,聊天时需捂鼻引发热议。

特约前排观众
2026-02-11 00:20:06
48小时内普京遭双重噩耗,乌克兰赌赢泽连斯基狂喜

48小时内普京遭双重噩耗,乌克兰赌赢泽连斯基狂喜

范赊舍长
2026-02-14 08:43:43
别被电视剧骗了!这才是赌王4位娇妻的真容,货真价实的罕见照片

别被电视剧骗了!这才是赌王4位娇妻的真容,货真价实的罕见照片

聚焦最新动态
2026-02-12 22:29:55
瑞士男女冰壶同日遭双杀,雇佣军称霸亚洲引质疑

瑞士男女冰壶同日遭双杀,雇佣军称霸亚洲引质疑

老税系戏精北鼻
2026-02-14 06:58:27
2月13日俄乌:盟友的350亿美元新援助

2月13日俄乌:盟友的350亿美元新援助

山河路口
2026-02-13 15:58:40
罗翔被群嘲,法律的阶级性可以装看不见,但上过初中的都懂

罗翔被群嘲,法律的阶级性可以装看不见,但上过初中的都懂

月满大江流
2026-02-11 08:59:03
CBA本季不配拿600万的4大顶薪球员:范子铭最坑,2大顶级射手迷失

CBA本季不配拿600万的4大顶薪球员:范子铭最坑,2大顶级射手迷失

弄月公子
2026-02-14 09:25:39
马斯克:谁要敢把爱泼斯坦那些破事挖出,被人起诉,律师费我全包

马斯克:谁要敢把爱泼斯坦那些破事挖出,被人起诉,律师费我全包

百态人间
2026-02-12 15:24:25
山西一高速路边发现一只小狮子,有民警称干了十几年首次遇见,当地自然资源局:系运输途中遗落,已由所属公司安全运回

山西一高速路边发现一只小狮子,有民警称干了十几年首次遇见,当地自然资源局:系运输途中遗落,已由所属公司安全运回

极目新闻
2026-02-12 22:39:08
你知道什么是降维打击吗?网友:符合高中学历的认知

你知道什么是降维打击吗?网友:符合高中学历的认知

带你感受人间冷暖
2026-02-13 21:51:11
限制供应商投标!大批医疗设备采购项目被废标、处罚...

限制供应商投标!大批医疗设备采购项目被废标、处罚...

医疗器械经销商联盟
2026-02-14 08:02:49
女生主动起来有多主动?网友:东北雨姐式才叫真主动

女生主动起来有多主动?网友:东北雨姐式才叫真主动

夜深爱杂谈
2026-02-06 20:23:42
进展神速,004航母用一年完成近半建造量,航母也正式开始下饺子

进展神速,004航母用一年完成近半建造量,航母也正式开始下饺子

军武吐槽君
2026-02-11 09:09:11
王梓阳单板U型池决赛位列第九,户冢优斗95.00分夺金

王梓阳单板U型池决赛位列第九,户冢优斗95.00分夺金

懂球帝
2026-02-14 04:35:14
年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

流年拾光
2025-10-23 20:33:16
深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

一分为三看人生
2026-02-11 16:18:47
志愿军2000人失踪7天,美军宣称被全歼,他们却押着300俘虏回家了

志愿军2000人失踪7天,美军宣称被全歼,他们却押着300俘虏回家了

睡前讲故事
2026-02-05 21:15:42
憨豆先生震撼官宣!捐出1.6亿美元全部收益,一句话戳中无数人

憨豆先生震撼官宣!捐出1.6亿美元全部收益,一句话戳中无数人

老马拉车莫少装
2026-02-12 00:01:07
2026-02-14 10:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2218880文章数 5467关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

牛弹琴:一觉醒来乌感谢中国了 希望与中国最高层接触

头条要闻

牛弹琴:一觉醒来乌感谢中国了 希望与中国最高层接触

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

旅游
手机
家居
数码
公开课

旅游要闻

河南洛阳:龙门石窟景区迎来旅游高峰

手机要闻

苹果iOS 26升级率接近iOS 18,近四年iPhone升级比例为74%

家居要闻

中古雅韵 乐韵伴日常

数码要闻

史上速度最快SSD!美光量产全球首款PCIe Gen6固态硬盘9650:读取速度达28GB/s

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版