网易首页 > 网易号 > 正文 申请入驻

RLinf上新πRL:在线强化学习微调π0和π0.5

0
分享至



近年来,基于流匹配的VLA 模型,特别是 Physical Intelligence 发布的π0和π0.5,已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布,能够生成高维且平滑的连续动作序列,在应对复杂操控任务时展现出显著优势。

尽管如此,VLA 模型在训练过程中严重依赖于大规模、高质量的人类演示数据,而收集和标注这些数据的成本高昂且周期漫长。强化学习允许智能体通过与环境的真实交互自行探索和迭代改进,可以减少VLA 模型对大量数据的依赖,并进一步提升SFT 的性能上限。

目前,针对流匹配VLA 的 RL研究仍较少,主流工作大多集中在OpenVLA 和 OpenVLA-OFT等自回归VLA上。其核心挑战在于:流匹配VLA 通过迭代去噪生成动作,导致难以直接计算输出动作的对数似然——而这是PPO、GRPO 等策略梯度方法更新的关键。

清华、北大、CMU 等机构联合推出了一套面向流匹配 VLA(π0,π0.5)的在线强化学习(PPO 和 GRPO)微调框架πRL。该框架基于 RLinf(首个面向具身智能的大规模强化学习系统)实现,提出Flow-Noise 和 Flow-SDE两种微调方案,在公开测试平台LIBERO 达到平均 97.6% (π0) 和 98.3% (π0.5),验证了微调方案的有效性。

进一步,πRL在涵盖4,352 种抓取-放置任务组合中进行训练,成功率涨幅40% 以上,最终成功率超 80%,验证了框架支持大规模任务训练的能力。目前,全部代码、模型和文档示例已完全开源。



  • 论文链接: https://arxiv.org/pdf/2510.25889
  • 开源代码: https://github.com/RLinf/RLinf
  • 模型仓库: https://huggingface.co/RLinf
  • 复现文档:https://rlinf.readthedocs.io/en/latest/rst_source/examples/pi0.html



图 1:本框架分别支持 π0和 π0.5两个模型,并提出了Flow-Noise 和 Flow-SDE两种技术方案,在LIBERO 和 ManiSkill测试平台上分别实现了最高40.0% 和 44.7%的增幅。

πRL 核心原理

针对流匹配VLA 难以直接计算输出动作对数似然问题,πRL提出了两条技术路线:Flow-Noise 和 Flow-SDE。



图 2:Flow-Noise 通过将去噪过程建模为离散马尔可夫过程,能够直接计算去噪序列的联合概率密度;Flow-SDE 则将去噪与环境交互过程相结合,构建了双层 MDP。策略在 rollout 阶段收集完数据后,统一采用 PPO 进行策略梯度优化。

Flow-Noise

  • 注入可学习噪声:引入一个可学习的噪声网络,在去噪每一步均加入噪声,使去噪过程变为随机过程。
  • 计算联合概率:由于每一步噪声均可知(由噪声网络输出),整个去噪序列(从初始噪声至最终动作)的联合对数似然可精确计算。
  • 策略梯度优化:基于可精确计算的联合对数似然,可直接用标准策略梯度方法进行优化。

Flow-SDE

  • ODE-SDE 转化:将原有确定性ODE 去噪步骤,转化为等效 SDE,从而在策略中引入随机性。
  • 构建两层 MDP:SDE 去噪作为内层循环,与智能体-环境交互(外层循环)结合,构建双层MDP 结构
  • 混合采样提速:训练中大部分采用ODE 确定性采样,小部分用SDE 探索,以加速训练同时保证探索。
  • 策略梯度优化:在双层MDP 中,策略输出由与环境交互的动作转为流匹配模型输出的速度场,可直接进行策略梯度优化。

Critic 设计

针对π0和π0.5模型,πRL应用PPO 算法微调时,探索了两种Actor-Critic 架构

  • Action Expert Critic(适用于π0)

  • VLM 仅包含图像和语言信息,机器人状态与噪声动作一同送入 Action Expert。
  • Critic 接 Action Expert隐藏层输出,并通过对全部噪声步取平均获得稳定的估计。

  • VLM Critic(适用于π0.5)

  • VLM 融合全部输入(图像、语言、机器人状态)。
  • Critic 直接接 VLM隐藏层输出。



图 3:我们系统性地探索了两种 Critic 设计思路:一种将 Critic 部署在动作模型(Action Expert)之后,另一种则将 Critic 直接接入视觉语言模型(VLM)后。

实验结果

πRL 在常用VLA 评测集 LIBERO 及 ManiSkill自建多任务集上验证了其有效性。

LIBERO:少样本 SFT+RL 范式超越全数据 SFT!

πRL让π0(few-shot)平均成功率从57.6% 提高到 97.6%,π0.5(few-shot)从77.1% 提高到 98.3%,超越全数据 SFT 训练的流匹配 VLA 表现。



图 4:LIBERO 测试平台下的性能对比

与此同时,在LIBERO-Long 长时序任务上,πRL使π0.5单样本 (one-shot) SFT性能从 43.9% 提升到 94.0%!



图 5:LIBERO-Long任务 one-shot SFT 的 RL收敛曲线

ManiSkill:验证大规模多任务 RL 能力!

为了验证πRL大规模多任务的支持能力,我们在Maniskill 中构造了涵盖4,352 种抓取-放置任务组合。结果表明,通过在320个并行环境中进行训练,πRL(Flow-Noise)将π0成功率从38.42% 提升到 78.83%,π0.5成功率从40.06% 提升到 90.85%。



图 6:ManiSkill Main任务中Pi05的RL收敛曲线

此外,我们还设计了12 个与训练环境不同的域随机化测试环境,用于考察模型的泛化能力。在这些环境中,我们改变语言指令、物体类型、桌面纹理,或者在执行过程中移动物体、添加多个物体,来考察模型的泛化能力,并在每个环境中进行了256 次测试来排除统计涨落的结果的影响。结果表明,πRL算法能够显著提升两类模型在新环境下的泛化性能



图 7:ManiSkill环境中对泛化能力的测试

我们还在实验中观测到,相比监督微调,强化学习可以使得模型更少犯错,模型完成操作任务的平均步数可以显著减少,直到逼近专家数据水平:



图 8:强化学习提高完成任务的效率

消融研究

除上述对比试验外,论文还包含大量消融实验,为后续基于流匹配VLA 的 RL研究积累了经验。

  • 算法对比(PPO vs. GRPO):使用流匹配VLA,PPO 在最终性能和训练稳定性上均优于GRPO



图 9:PPO 和 GRPO 算法的收敛曲线对比

  • MDP 对比:Flow-Noise(单层 MDP)收敛略快,Flow-SDE(双层 MDP)单步更新更快(与去噪步数解耦),最终性能接近。

  • 随机性注入对比:可学习噪声(Flow-Noise)与固定噪声(Flow-SDE)两种策略,在相同MDP 框架下性能类似,证明两类噪声注入均有效。

  • Critic 设计:Critic 接在 VLM 后略优于接在Action Expert 后,且更稳定。

更多技术细节和消融结果详见论文。

未来展望

πRL未来将继续发布更多结果,包括:

  • 更多基准测试集:接入更多仿真环境,进行更丰富的评测。
  • 提升 OOD 泛化能力:针对强化学习带来的泛化增益展开更深入分析。
  • 真实机器人部署:推动πRL框架从仿真走向真实物理机器人,验证其实际应用价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金龙鱼、五粮液、三峡能源、涪陵榨菜、东方雨虹什么时候才止跌?

金龙鱼、五粮液、三峡能源、涪陵榨菜、东方雨虹什么时候才止跌?

财经智多星
2026-01-03 11:22:48
新年“信用红包”!个人贷款逾期记录没了

新年“信用红包”!个人贷款逾期记录没了

看看新闻Knews
2026-01-02 22:33:36
詹姆斯爆发!湖人11胜0负!创造联盟最佳战绩

詹姆斯爆发!湖人11胜0负!创造联盟最佳战绩

篮球教学论坛
2026-01-03 15:03:45
2026是赤马红羊大劫,唯有一条路能逃生!

2026是赤马红羊大劫,唯有一条路能逃生!

水木然
2026-01-02 22:53:55
何穗元旦晒儿子!和陈伟霆陪娃迎新年,一个月Winsome趴爸爸背上

何穗元旦晒儿子!和陈伟霆陪娃迎新年,一个月Winsome趴爸爸背上

乐悠悠娱乐
2026-01-02 10:31:08
老红军为证明身份,到最高检门口见车就撞,黄火青:你给我唱首歌

老红军为证明身份,到最高检门口见车就撞,黄火青:你给我唱首歌

春秋砚
2025-12-29 13:00:06
美媒:前湖人中锋伍德指控其前女友雇凶谋杀;曾遭三名歹徒入室抢劫

美媒:前湖人中锋伍德指控其前女友雇凶谋杀;曾遭三名歹徒入室抢劫

懂球帝
2026-01-02 16:11:09
一夜情酿悲剧!男子用力太猛女方当场身亡,这事给所有人敲响警钟

一夜情酿悲剧!男子用力太猛女方当场身亡,这事给所有人敲响警钟

今朝牛马
2025-12-12 16:44:55
网红郭有才,泡沫散去之后,曾经飘的有多高,如今摔得就有多惨

网红郭有才,泡沫散去之后,曾经飘的有多高,如今摔得就有多惨

小熊侃史
2025-12-20 10:55:18
澳大利亚雇佣兵被俄军打死!说最后一次任务,还真是最后一次

澳大利亚雇佣兵被俄军打死!说最后一次任务,还真是最后一次

战风
2026-01-02 15:49:42
贪财风流、嗜酒如命,香港乐坛一代鬼才,2000多首歌撑起整个武林

贪财风流、嗜酒如命,香港乐坛一代鬼才,2000多首歌撑起整个武林

慕姑娘的读行生活
2025-12-13 07:00:07
69岁退休大爷哭诉:跳了半年广场舞,每月8000元退休金都不够用了

69岁退休大爷哭诉:跳了半年广场舞,每月8000元退休金都不够用了

人间百态大全
2025-12-17 06:35:03
下月起,看病开药新规!6类药超7天全自费,慢病一次开3个月

下月起,看病开药新规!6类药超7天全自费,慢病一次开3个月

boss外传
2026-01-03 14:00:03
消费降级的风吹到了烟草圈,小烟酒店亏到扛不住,这场危机该怪谁

消费降级的风吹到了烟草圈,小烟酒店亏到扛不住,这场危机该怪谁

今朝牛马
2026-01-02 20:49:15
杰伦-布朗谈12月最佳:无意冒犯,但亚历山大和布伦森表现没我好

杰伦-布朗谈12月最佳:无意冒犯,但亚历山大和布伦森表现没我好

懂球帝
2026-01-03 11:05:08
杰伦-约翰逊18+10+11沃克23分 老鹰客场战胜尼克斯

杰伦-约翰逊18+10+11沃克23分 老鹰客场战胜尼克斯

北青网-北京青年报
2026-01-03 11:50:07
蔡磊致渐冻症病友新年公开信:历史已经被改写,将抗争到最后一刻

蔡磊致渐冻症病友新年公开信:历史已经被改写,将抗争到最后一刻

澎湃新闻
2026-01-01 15:36:32
末节DNP哈登?美球迷疯狂炮轰泰伦卢涉赌 六连胜场均26+7被小觑?

末节DNP哈登?美球迷疯狂炮轰泰伦卢涉赌 六连胜场均26+7被小觑?

颜小白的篮球梦
2026-01-02 20:50:26
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
科学家首次发现:动脉粥样斑块竟能完全消退!不过需满足5个条件

科学家首次发现:动脉粥样斑块竟能完全消退!不过需满足5个条件

岐黄传人孙大夫
2026-01-03 13:40:03
2026-01-03 16:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12033文章数 142527关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

男子花29万买了一辆智界R7展车 撞车后拆出麻花和饼干

头条要闻

男子花29万买了一辆智界R7展车 撞车后拆出麻花和饼干

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

人工智能四问:投资泡沫出现了吗?

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

房产
手机
旅游
健康
教育

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

手机要闻

高通骁龙X2 Plus处理器曝光:CPU单核提升35%,80 TOPS NPU

旅游要闻

“郭芙蓉”重获自由第一站火了 有来京游客专程带糖葫芦来六里桥打卡拍照

元旦举家出行,注意防流感

教育要闻

99999次方看着可怕,分类讨论不难

无障碍浏览 进入关怀版