网易首页 > 网易号 > 正文 申请入驻

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

0
分享至



机器之心发布

机器之心编辑部

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:



其中有我们熟悉的 Yuke Zhu 的研究,也有他们自己(Chelsea Finn、Sergey Levine)的一些研究,我们之前对这些工作一直有跟踪和介绍。此外,还有来自国内具身智能团队的工作,比如清华大学、星动纪元的研究。随着 π*0.6 的发布,VLA+online RL 成为了一个行业共识的非常有前景的研究方向(深扒了Π*0.6的论文,发现它不止于真实世界强化学习、英伟达也来做VLA在真实世界自我改进的方法了)大语言模型从SFT到RL的发展方向也逐渐在具身研究中清晰明朗。

一、为什么VLA+RL很重要



图注:VLA模型依赖研读微调

在具身智能(Embodied AI)领域,科学家们正在尝试将强大的视觉-语言模型(VLM)应用到机器人的底层控制中,这就是所谓的VLA模型。通常,这些模型是通过模仿人类专家的示范数据(监督微调,SFT)来学习的。



图注:模仿学习的局限

但是,仅靠模仿是不够的。如果机器人遇到了从未见过的情况,或者专家数据不够完美,机器人就会不知所措。

而正如我们在深扒了Π*0.6的论文,发现它不止于真实世界强化学习所说的,模仿学习能让机器人成功做出动作,但是让它每次都成功是非常难的。如果想让机器人非常鲁棒、持久的工作,需要借助强化学习的力量。相较于离线强化学习通常受限于演示数据的质量,模型很难超越提供数据的专家,在线 RL 允许智能体通过试错来发现更优解

二、强化学习应用在VLA的三大难点?



图注:VLA RL的难点

理论上,强化学习(RL)可以让机器人通过与环境互动、试错来持续进步,但是这其实不是一件容易的事情



图注:LLM和具身在RL上的区别

将类似 GPT 这样的大模型与强化学习结合(如 RLHF)在聊天机器人领域非常成功,但在控制物理机器人时却困难重重:

  • 环境差异:聊天机器人是在离线数据集上训练的,而机器人需要在物理世界中实时探索。物理任务通常周期长、奖励稀疏(做完一整套动作才算成功),这使得学习非常困难。
  • 模型坍塌与不稳定性:研究发现,如果直接对巨大的 VLA 模型(数十亿参数)进行在线强化学习,模型很容易出现“灾难性遗忘”或训练崩溃,导致性能甚至不如微调前。
  • 算力负担:在本地机器上对几十亿参数的模型进行全量梯度的强化学习更新,对硬件要求极高,通常超出了本地机器人控制器的算力极限。

三、星动纪元 iRe-VLA 最先突破 VLA 强化学习困境,也是 π*0.6 的引用来源

对于VLA的强化学习困境,行业内其实有三种类型的解决方案:

  • 第一种:外挂式干预:一些尝试不敢轻易触碰庞大的 VLA 参数。比如V-GPS (Value-Guided Policy Steering)训练一个通用的价值函数,在推理时,让 VLA 生成多个候选动作,用价值函数对它们进行打分和重排序,选择最好的动作执行;DSRL训练一个小型的 RL 策略来优化扩散模型的输入噪声,通过改变输入噪声来“引导”冻结的 VLA 生成高价值动作。这种方法虽然安全,但 VLA没有真正发生质变。
  • 第二种:暴力美学:VLAC为代表的工作尝试直接用 PPO 等算法全量微调 VLA。虽然勇气可嘉,但大模型在 RL 训练中极易出现灾难性遗忘和模型坍塌(Model Collapse),且对算力的要求很高。
  • 第三种是从探索到内化的循环。让我们眼前一亮的是一篇以前没有跟踪过的,清华和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通过在线强化学习改进视觉-语言-动作模型),来自于清华大学助理教授、星动纪元创始人陈建宇老师组。星动纪元这项研究是全球最早将在线RL引入VLA的工作,在ICRA发表,π*0.6 也引用了该工作,是中美两方在RL上的顶尖对话。

这两篇文章代表了第三种路径。它们不再盲目地套用 RL 算法,而是利用监督微调(SFT)将 RL 探索出的高价值行为(成功轨迹或高优势动作)稳定地内化为模型的原生能力。

π*0.6 不在此详细赘述。我们来看下 iRe-VLA。



  • 论文:Improving Vision-Language-Action Model with Online Reinforcement Learning
  • 论文链接:https://arxiv.org/abs/2501.16664

iRe-VLA 的作者设计了一个两阶段循环迭代的学习流程。这个流程的核心思想是:分而治之,动静结合。

星动纪元:iRe-VLA 模型架构设计

VLA 模型由两部分组成:

VLM 主干(大脑):使用预训练的大型视觉-语言模型(如 BLIP-2),负责理解图像和指令,拥有丰富的世界知识。

Action Head(四肢):一个轻量级的动作输出层(由 Token Learner 和 MLP 构成),负责将 VLM 的深层特征转化为具体的机器人控制信号(如机械臂的移动、夹爪的开合)。

为了提高效率,作者还使用了LoRA(低秩适应)技术,避免全量微调所有参数。



图注:模型架构

核心流程:两个阶段的交替

iRe-VLA 方法不是一次性训练,而是在以下两个阶段中反复迭代:

第一阶段:在线强化学习(探索与发现)



图注:稳定探索

在这个阶段,机器人的目标是去试错,探索如何完成新任务。

  • 冻结大脑(Freeze VLM):为了防止模型崩溃和减少计算量,作者冻结了巨大的 VLM 主干参数。
  • 只练四肢(Train Action Head):仅训练轻量级的 Action Head。同时引入一个Critic Head(评价网络)来辅助训练。
  • 优势:因为只更新很少的参数,训练非常稳定,而且计算量很小,可以在本地机器(如单张 4090 显卡)上高效运行。机器人通过不断尝试,找到了一些能够成功完成任务的轨迹(Success Trajectories)。

第二阶段:监督学习(巩固与内化)

在第一阶段,机器人可能只是碰巧学会了操作,为了让这种能力真正融入模型,需要进行第二阶段。



图注:融合与升华

  • 全模型微调:解冻 VLM 主干,对整个模型(包括 LoRA 参数)进行训练。
  • 混合数据:训练数据不仅包含第一阶段探索到的新成功轨迹,还混合了原始的专家示范数据。
  • 优势:这不仅利用了大模型的强大表达能力来记住新技能,还因为混合了旧数据,有效防止了灾难性遗忘(即学会了新任务,忘了旧任务)。这一步计算量大,通常放在云端服务器(如 A100 集群)上进行。



图注:两阶段

总结:机器人先在“小参数模式”下大胆探索(阶段1),找到方法后,再在“全参数模式”下把经验固化到大脑中(阶段2),如此循环往复。



图注:循环往复

三、 实验结果与分析



图注:三种情况的实验结果分析

作者在仿真环境(MetaWorld, Franka Kitchen)和真实世界(Panda 机械臂)中进行了大量实验,验证了该方法的有效性。

训练稳定性对比

实验显示,如果使用标准的 PPO 算法直接微调 VLA 模型,成功率曲线震荡剧烈,甚至在很多任务上性能下降(变差了)。而 iRe-VLA 的曲线则稳步上升,证明了“分阶段冻结参数”对于稳定训练至关重要。



图注:曲线对比

仿真环境表现



图注:仿真环境中具备压倒性优势

MetaWorld & Franka Kitchen:在这些基准测试中,iRe-VLA 不仅在原本学过的任务上表现更好(例如从 43% 提升到 83%),还能通过在线探索学会完全没见过的任务。

对比 SFT:相比仅进行监督微调的模型,经过 iRe-VLA 迭代后的模型在所有任务类别(专家任务、RL 训练任务、未见过的测试任务)上的成功率都有显著提升。



图注:不同后训练策略的对比

真实世界挑战(Real-World Panda)

这是最令人印象深刻的部分。作者让机器人去抓取它从未见过的物体(如形状不规则的茄子、胡萝卜)。



图注:真实世界的提升

  • 初始状态:仅靠专家数据(SFT),机器人抓取这些新物体的成功率只有 35% 左右。
  • 训练后:经过 iRe-VLA 的在线学习(利用 SACfD 算法提高样本效率),抓取成功率飙升到了 80%。
  • 泛化能力:更有趣的是,训练后的模型去抓取完全未参与训练的第三类物体,成功率也从 37% 提升到了 61%。这说明通过强化学习,模型不仅学会了抓茄子,还变得更聪明、更通用了。



图注:实验和成功率

消融实验:为什么要解冻 VLM?

作者做了一个对比实验:如果在第二阶段依然冻结 VLM,只训练 Action Head(即 iRe-VLA-freeze),效果如何?

结果显示,如果不解冻 VLM,模型的性能提升会遇到瓶颈。这证明了在第二阶段解冻大模型参数是必要的,这样才能利用大模型深层的特征表示能力来彻底掌握复杂技能,并提升泛化性。



图注:消融实验

四、 结论与意义

这篇文章提出了一种切实可行的方案,解决了大模型在机器人控制中落地难的问题。

  • 稳定性:解决了大模型直接上 RL 容易训崩的问题。
  • 经济性:巧妙地分配了算力,让本地机器人负责轻量级探索,云端服务器负责重量级消化,符合实际部署场景。
  • 持续学习:证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能。



图注:该架构的优点

国内的星动纪元的iRe-VLA 的基础上,海外的PI π*0.6,都为我们揭示出了VLA在线强化学习技术的发展前景。这条路还有很多未尽的研究话题,比如如何高效探索与稀疏奖励下的新技能学习,如何面向大规模 VLA 构造稳定可扩展 RL 算法等。

未来发展,我们拭目以待。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
买面包糕点时,懂行的人很少买这5种,店员:我们自己都很少吃

买面包糕点时,懂行的人很少买这5种,店员:我们自己都很少吃

阿龙美食记
2026-04-17 14:04:17
1910年,孙中山原配和三个孩子合影,容貌憔悴,命运坎坷!

1910年,孙中山原配和三个孩子合影,容貌憔悴,命运坎坷!

史之铭
2026-04-19 17:44:23
联通把流量变成"水电费":用多少付多少,39元起

联通把流量变成"水电费":用多少付多少,39元起

赛博兰博
2026-04-28 10:25:27
为什么威尔·史密斯吃面是AI视频的行业标准?

为什么威尔·史密斯吃面是AI视频的行业标准?

beebee
2026-04-28 11:14:40
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
胸前小十字架挺显眼,就是布料跟不上,这直播自拍操作合规吗?

胸前小十字架挺显眼,就是布料跟不上,这直播自拍操作合规吗?

飛娱日记
2026-04-27 07:00:48
当老外不再客套,而是真心感叹:中国科技这次真的出圈了

当老外不再客套,而是真心感叹:中国科技这次真的出圈了

小怪吃美食
2026-04-29 15:51:01
周乐伟涉嫌严重违纪违法,主动投案!曾任格力集团董事长

周乐伟涉嫌严重违纪违法,主动投案!曾任格力集团董事长

每日经济新闻
2026-04-29 00:11:10
吴敏霞全家福 吴敏霞显老气 老公朗目疏眉 女儿儿子可爱

吴敏霞全家福 吴敏霞显老气 老公朗目疏眉 女儿儿子可爱

东方不败然多多
2026-04-29 16:15:46
朱枫直到牺牲都不知,她视若己出的继女阿菊,其实是个国民党特务

朱枫直到牺牲都不知,她视若己出的继女阿菊,其实是个国民党特务

兴趣知识
2026-04-28 00:56:13
八大军区司令员对调,中央开会气氛很紧张,毛主席:先开个玩笑吧

八大军区司令员对调,中央开会气氛很紧张,毛主席:先开个玩笑吧

明月清风阁
2026-04-29 16:30:12
国家航天任务密集推进!航天电子一季报稳步增长,深耕航天核心产业链

国家航天任务密集推进!航天电子一季报稳步增长,深耕航天核心产业链

每日经济新闻
2026-04-29 14:00:25
和新欢产子?世上渣男千万,最怕杨子这种,黄圣依仅剩体面也没了

和新欢产子?世上渣男千万,最怕杨子这种,黄圣依仅剩体面也没了

小兰聊历史
2026-04-29 16:29:37
12年前,那个美国抓捕未果,入籍俄罗斯的斯诺登,如今过得怎样?

12年前,那个美国抓捕未果,入籍俄罗斯的斯诺登,如今过得怎样?

就一点
2026-03-08 23:09:47
不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

番外行
2026-04-23 07:54:08
陈安任江苏省公安厅常务副厅长、党委副书记

陈安任江苏省公安厅常务副厅长、党委副书记

潇湘晨报
2026-04-29 10:55:12
睡前默念这5个字,百岁高僧开示:这是最简单的“修心聚能”法

睡前默念这5个字,百岁高僧开示:这是最简单的“修心聚能”法

温情邮局
2026-03-31 09:34:25
麻烦来了!伊朗石油爆仓,日产200万桶没地放,求特朗普网开一面

麻烦来了!伊朗石油爆仓,日产200万桶没地放,求特朗普网开一面

民间胡扯老哥
2026-04-29 14:05:38
中国驳斥日本涉海虚假叙事:日方说法完全是颠倒黑白

中国驳斥日本涉海虚假叙事:日方说法完全是颠倒黑白

环球网资讯
2026-04-29 06:49:40
2026-04-29 17:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12889文章数 142640关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

孙杨方回应"孙杨妈妈要求删除马頔发言":毫无事实依据

头条要闻

孙杨方回应"孙杨妈妈要求删除马頔发言":毫无事实依据

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

曾经的新能源首富,希望又破了!

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

时尚
家居
房产
手机
数码

除了“薄底鞋”,今年最流行这5双鞋,怎么搭都好看!

家居要闻

寂然无界 简洁风格

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

手机要闻

华为Mate X5、nova 14等机型鸿蒙HarmonyOS 6.1系统“转正”

数码要闻

华为MateBook 14鸿蒙版电脑HarmonyOS 6.1版本发布

无障碍浏览 进入关怀版