网易首页 > 网易号 > 正文 申请入驻

对话罗剑岚,拆解LWD具身强化学习框架

0
分享至

让机器人在真实环境中自主进化,是很多人长期想啃下的硬骨头。但目前的具身模型本身,还难以在形形色色的真实场景中持续进化、实现在线学习。

针对这个问题,一条正在被逐步印证的解法,是让部署在机器人上的具身模型直接在真实环境中通过强化学习(RL)拿反馈、做进化。

沿着这条思路,近期上海创智学院和智元具身研究中心联合发布了一项新成果 —— LWD(Learning while Deploying)。

LWD,这套 VLA+RL 的方案,能让一群机器人在干活中越干越强。

技术报告:《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》

LWD 的论文介绍,研究员们在 Agibot G1 双臂机器人集群上,用 16 台机器人跑了 8 项真实世界操作任务来验证 LWD 的效果。

结果显示,有了 LWD 后,机器人在商超补货、调制鸡尾酒、制作果汁、收纳鞋子等需要精细化操作的长程任务中成功率优于其他方案。


LWD 取得了平均 95% 的成功率,优于其他方案

相比离线初始化,在线的 LWD 在泡功夫茶、榨果汁、调鸡尾酒、鞋盒收纳等任务上分别提升了 17%、16%、10% 和 6%。这也证明,LWD 确实让机器人集群越干活越聪明。

论文发布后,上海创智学院副教授、智元首席科学家罗剑岚,接受了我和其他几家媒体的访谈。今天这篇文章,我会结合论文本身和罗博士的解读,把这项工作讲清楚。

01 LWD是怎么工作的

更细致地说,LWD 是一套让机器人通过真实世界的强化学习实现自主改进的框架。它的特点是,机器人集群部署后,能从真实环境里所有类型的交互中自主学习。


LWD 数据飞轮

这里的特点有两个:一是机器人集群"持续自主"学习,二是"所有类型的交互"。

先来看"持续自主"学习。

从去年下半年到现在,具身领域冒出了不少数采路线,但不管哪一种,都离不开大量人力参与。所以很多时候,部署的机器人越多、任务越复杂,配套的人力投入反而越重。

但这次的 LWD 是一个 on policy 的在线学习系统。它的基本设计是:机器人在真实环境中用当前策略完成任务,过程中产生的"当下策略"数据,能在 40 秒左右回流到云端,变成新的训练数据。

也就是说,数据是机器人在真实场景中自己跑出来的。

而且能通过算法 —— LWD 里用了更稳定地评分器(DIVL)和改进策略(QAM),让机器人自己在部署后拿到真实环境的反馈,实时反哺训练。如果真机规模化铺开,它可能是一个获取高质量数据的办法。

其实不久前 Pi0.6 的 Recap 模式,就已经在用模型部署后的真机数据做训练。但当时它做一次数据收集要花几天,算不上在线训练,而 LWD 在这件事上更进了一步。

再看 LWD 让机器人"从所有类型的交互中学习"这一点。

LWD 本质上是一个强化学习训练框架,涵盖 offline RL 的预训练和 online RL 的微调。论文中介绍,LWD 在业内首次实现了具身 VLA 的大规模 RL 预训练 + 后训练。


LWD系统流水线:离线RL预训练、部署、在线数据采集、数据混合训练、策略更新、重新部署

之前训练具身模型,主要靠人工采集的大量"正确"数据。但在强化学习的范式下,不同场景里的正、负样本都对训练有用。所以 LWD 从 offline RL 预训练到微调,全程都在用多样化的数据。

罗剑岚介绍,在预训练阶段,LWD 里 RL 的价值函数(value function)是基于 VLM 模型重新训练的。

具体来说,他们拿一个已有的模型,加上多种来源的离线(offline)数据——包括 demo 数据、autonomous 数据,以及用于探索失效模式的 play 数据,在 offline buffer 里一起训练价值函数,让它能同时理解成功和失败两种情况,对机器人的行为做出有效打分。

这样跑下来,离线预训练 RL 可以把价值判断的策略初始化到一个"不太差"的状态。


罗剑岚说,这个阶段 LWD 的训练数据大概是 60% 多的正样本,加 30% 多的负样本。

接下来,这个 offline RL 训出来的初始策略会被部署到机器人上。每台机器人开始和环境交互、产生数据,这些来自不同机器人、不同场景的实时数据会进入 online buffer。

真实部署后,负责 RL 训练的中央 Learner 会从 offline buffer 和 online buffer 各取一半做混合采样——offline buffer 里是预先采好的历史数据,online buffer 里是部署后实时跑出来的新数据,然后用这批混合数据来训练。

随着部署时间变长,online buffer 不断增大,策略也跟着真实世界的反馈持续更新。

罗剑岚说,当机器人部署规模上来之后,这些实时产生的数据会源源不断回流,越来越多,人工干预的数据越来越少。

这就是 LWD 的基本框架,也是它能让机器人集群在部署后持续学习的原因。

02 稳住评分,稳住梯度

LWD 的目标是让机器人集群在真实部署中持续学习,用的是强化学习。强化学习的核心,是能判断某个状态和某个动作成功概率的 Critic。

但在 LWD 的训练环境里,十几台机器人同时在跑,做着不同的任务,数据一直在涌进来,策略本身也在边跑边更新,这导致难以训练稳定的 Critic。

这是 LWD 运行的一个难题。针对这个挑战,研究员们提出了 DIVL(Distributional Implicit Value Learning)。

传统方法是直接输出一个标定的数字来估计状态价值。但这种方式在不同机器人和任务中产生的异构数据中不太靠谱,一个输出不准确,就可能让价值判断偏离太远。

所以,LWD 中采用了 DIVL。它不直接输出单个数字,而是对每个状态,输出一个概率分布。就像考试从填空题改成选择题,对数据波动更不敏感。


LWD 评估的任务示意图

DIVL 让 Critic 的评分在杂乱数据里依然可靠。Critic 学好之后,下一步是用它来改进策略 —— 告诉模型"往哪个方向调整动作能得分更高"。这个改进信号也就是梯度,需要从 Critic 传回策略的参数里。

但这里又会遇到另一个问题。现在不少 VLA 都是 Flow-based,也就是最后输出的动作不是一步直接输出的,而是从噪声出发,经过多步去噪生成。

Critic 要把学好的梯度传回,正常做法是对整条去噪路径反向传播。但这条路径太长,很难传回去 —— 就像电话传话传了几十轮,原话肯定全变了。

针对这个问题,LWD 提出了 QAM 算法。

QAM 不让梯度强行传回,而是把梯度信号直接分发给路径上每一步,每次就做局部更新,不需要穿透整条链路。也就是不再让一个人传话传几十轮,而是每两个相邻环节直接对话,信息传递稳定性能大幅提升。

这样一结合,在 LWD 这套系统里,DIVL 负责在杂乱数据里稳定地给动作打分,QAM 负责把这个评分转化成每一步的具体改进指令。

03 闭环在线强化学习系统

这不是智元具身研究中心第一次做真机在线训练的工作。

我在年初介绍过的SOP(Scalable Online Post-training),也试图从系统层解决这个问题。

从效果看,SOP 可以让多个机器人在部署后同时执行任务,把任务执行中的数据(成功和失败的都包括)一起传到云端。

罗剑岚说,SOP 解决了基础设施的问题,LWD 解决了强化学习算法与设计的问题。这两项工作已经完成了闭环,他期待能继续推进规模化部署。

除却 LWD 本身,这次交流中罗剑岚还分享了更多对强化学习,具身数据、世界模型等话题的看法。我整理如下:

Q:真机强化学习的意义。

罗剑岚:机器人真实部署必须达到一些具体指标。要优化这些指标,就需要一种优化工具,强化学习目前是很合适的工具。

预训练更像是 learning,也就是帮助模型从数据中找到 pattern。但机器人进入真实部署之后,还需要 search 和 optimization,在已有模型基础上,进一步优化到具体的部署指标。

所以只要目标是真实部署,就需要形成数据闭环,用类似 LWD 的在线提升系统持续优化这些 metrics。从底层逻辑看,强化学习目前是完成这件事最合适的工具。

Q:世界模型会取代VLA吗?

罗剑岚:这取决于怎么定义 VLA。如果 VLA 指的是同时包含视觉、语言和动作的模型(vision-language-action model),那它不太可能被简单取代。因为机器人要做动作,一定需要 vision,也一定需要 action。

真正有争议的是 language 是否有必要。如果机器人要在开放世界完成复杂操作、长程任务拆解和类似人的推理,language 是需要的,因为语言模型目前是实现这类推理能力最好的工具之一。

但现在的 VLA 形式不一定会固定下来。比如,是不是一定要把 action 当成 token 接到 VLM 后面、是不是一定要对齐到某个 latent space,这些都还没有定论。

现在大家讨论的 VLA、world model、video prediction model,更多是在讨论预训练路线的选择。LWD 强调的是另一层:预训练要和部署结合,形成预训练和后训练共同驱动的闭环。部署不是训练的终点,而是机器人智能持续提升的起点。

Q:让数据飞轮转起来的瓶颈是什么?

罗剑岚:机器人是一个系统工程,数据、基建、算法、机器人数量、人工干预都很重要。但当前阶段最核心的瓶颈还是 cost,也就是大规模真实部署背后的经济问题。

如果真的有足够多的机器人在真实场景里持续干活,有上万小时、上万台机器人级别的真实交互数据,那么即使现有算法不够完美,很多 incremental improvement 的部分也能跑通。

换句话说,谁能部署更多机器人、让更多真实数据持续回流,谁就更有机会把数据飞轮真正转起来。

当然随着部署规模扩大,数据质量、基础设施和算法层面的新问题会陆续暴露,但这些更像是边扩边解决的问题,而不是需要在一开始就完全预先解决的问题。

Q:LWD 对数据采集、标注产业链的影响。

罗剑岚:可以参考自动驾驶。它也经历了从少量试采车、离线数据采集,逐渐转向部署数据回流、处理回流数据、再训练、再推送模型的迭代过程。

机器人如果能形成 LWD 这样的部署闭环,数据链路也会从"先采集、再训练、再部署"的离线管线,转向"部署中持续回流数据、云端持续训练、再把新模型推回机器人"的在线闭环。区别在于,机器人场景如果允许在线学习和试错,这套闭环的迭代效率可能比自动驾驶更快。

部分参考:

https://mp.weixin.qq.com/s/Y2l_6YE7LoqF47qpKZwd8w

https://mp.weixin.qq.com/s/uCxESY98Ou9hpgdBgsIL-Q

https://mp.weixin.qq.com/s/MGe4MK7r1nko3bGJ37kjSw?scene=1

https://mp.weixin.qq.com/s/3QnkC2UeK-0II73xI3d8wg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国男篮19人大名单!赵睿贺希宁周琦曾凡博落选!近期赛程出炉

中国男篮19人大名单!赵睿贺希宁周琦曾凡博落选!近期赛程出炉

老吴说体育
2026-06-01 23:22:58
活动擅自开展、暂停一切合作!茅台子公司连夜发布情况说明

活动擅自开展、暂停一切合作!茅台子公司连夜发布情况说明

每日经济新闻
2026-06-02 08:55:08
皇马变天?48岁劳尔疑背刺79岁佛爷+投靠对手阵营 2大巨星有望来投

皇马变天?48岁劳尔疑背刺79岁佛爷+投靠对手阵营 2大巨星有望来投

风过乡
2026-06-02 07:17:45
马斯克亲口承认,要不是自己儿子做了变性手术,现在美国总统也不会是特朗普

马斯克亲口承认,要不是自己儿子做了变性手术,现在美国总统也不会是特朗普

不掉线电波
2026-06-01 20:02:08
库里官宣签约李宁十年!勇士两大核心都签约李宁

库里官宣签约李宁十年!勇士两大核心都签约李宁

体坛周报
2026-06-02 08:00:13
正面遭遇!美军导弹驱逐舰深夜闯入南海,南部战区海空定点驱离

正面遭遇!美军导弹驱逐舰深夜闯入南海,南部战区海空定点驱离

Decade视角
2026-06-01 11:16:15
震碎NBA!父子同队进总决赛!历史首次!

震碎NBA!父子同队进总决赛!历史首次!

柚子说球
2026-06-01 17:28:09
坐了20多年飞机,现在才搞懂机场的T1、T2、T3里的T是什么意思!

坐了20多年飞机,现在才搞懂机场的T1、T2、T3里的T是什么意思!

小谈食刻美食
2026-06-02 07:34:00
特朗普无法接受,誓要吞并的“第51州”,扭头让中国成了最大赢家

特朗普无法接受,誓要吞并的“第51州”,扭头让中国成了最大赢家

闻识
2026-06-01 21:44:26
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
东北华北等地有强对流 南方地区将有较强降水

东北华北等地有强对流 南方地区将有较强降水

中国气象局
2026-06-02 08:08:07
襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

奇思妙想草叶君
2026-05-31 23:01:42
深圳“卷尺哥”:1000多次“找茬”之后

深圳“卷尺哥”:1000多次“找茬”之后

新京报
2026-06-02 08:01:43
“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

妍妍教育日记
2026-06-01 20:02:17
孩子压岁钱账户20多万,离婚时只剩几十元,父母双方闹上法庭!母亲:100%都花在孩子身上了;法院:10日内返还22万元

孩子压岁钱账户20多万,离婚时只剩几十元,父母双方闹上法庭!母亲:100%都花在孩子身上了;法院:10日内返还22万元

都市快报橙柿互动
2026-06-01 23:30:31
被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

人间运行手册
2026-05-31 10:02:15
饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

卷史
2026-06-01 11:19:40
柯文哲现身台北监狱探视,民众党干部爆:蔡正元头发已全白

柯文哲现身台北监狱探视,民众党干部爆:蔡正元头发已全白

海峡导报社
2026-06-01 21:14:03
活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

火山詩话
2026-06-01 09:44:58
2026-06-02 10:07:00
四木相对论 incentive-icons
四木相对论
唠唠科技,看看世界
145文章数 2关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了打电话痛骂以色列

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了打电话痛骂以色列

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

3910亿公募基准调整落地 导致A股大跌?

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

健康
旅游
数码
本地
公开课

干细胞临床研究向患者收费?别踩坑

旅游要闻

石家庄市井陉矿区正丰左岸艺术村 夏日文旅活动热度持续攀升

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版