网易首页 > 网易号 > 正文 申请入驻

Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式

0
分享至



编辑|泽南

这一次,具身智能的范式算是彻底升级了。

智元机器人的办公室里,最近员工们一上班就能看到机器人熟练地切着水果:



有梨有黄瓜,一通操作完了之后装进破壁机,打成了健康饮料端上来:



同样一套设备也能玩转调酒的全套流程:



或是做工夫茶、整理商品货架、打包鞋盒等各种任务:



之前每台机器人只能完成一个任务,现在基于同一个模型的机器人可以承接大量不同任务。而且,在真实世界中持续部署的过程中,它们的性能还会持续不断地提升。



文中视频链接:https://mp.weixin.qq.com/s/Z9-QfTvW-3kRAzZT2o0-zw

这么全面的能力是如何做到的?答案是直接在真实环境中搞大规模分布式强化学习训练。它们使用的是全新的具身智能训练范式:面向通用机器人策略的分布式多机强化学习(LWD)。这一套技术捅破了当前VLA的「天花板」。

LWD

启动物理世界的飞轮

最近一段时间,VLA(视觉 - 语言 - 动作)大模型出现,通过端到端的训练范式让机器人具备了通用泛化能力:只需要收集图像数据,读取人类自然语言指令,大模型就能将视觉和语言转化为空间特征,直接输出机械臂各个关节的角度和速度,进而完成任务。

但在物理世界里,VLA 具身智能的表现仍然算不上可靠。在长程任务和复杂条件上,机器人频频翻车。工程师往往只能将失败的案例(Corner Case)记录下来,让操作员针对特定情况再进行几十次遥操作演示,重新微调模型。

这就形成了一个折磨人的「打地鼠」模式:物理世界的不可控因素是无穷无尽的,只要遇到没见过的「地鼠」,机器人就会停摆,只能等待人类工程师来打补丁。

研究人员认为,改变这一现状的核心点在于把外部提供的人工监督,改为机器人自身的交互经验。

LWD(Learning While Deploying,部署中学习)是一套让通才 VLA 策略在真实世界部署中持续自主改进的可扩展强化学习系统,在业内首次实现了具身 VLA 的大规模 RL 预训练 + 后训练。该工作由上海创智学院和智元机器人联合发布,创智学院导师,智元首席科学家罗剑岚老师团队完成。



  • 技术报告:《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》
  • 链接:https://finch-static.agibot.com/LWD/lwd-paper.pdf
  • 项目页面:https://finch.agibot.com/research/lwd

这是对具身智能训练逻辑的一次重构,把机器人从执行工具变成了一个「动态的智能网络」。此前的 AI 从出厂那一刻起就是产品智力的巅峰,面对物理世界的无尽变化时经常无所适从。LWD 打破了这种静态,构建了一个由真实世界强化学习(RL)驱动的数据飞轮。

想象一下特斯拉的影子模式(Shadow Mode),但 LWD 走得更深,后者是一个完全闭环的行动系统:



LWD 被定义为集群级(fleet-scale)的离线到在线(offline-to-online)强化学习框架,用于通用 VLA(视觉 - 语言 - 动作)策略的闭环持续训练。

它从一个预训练好的 VLA 模型开始,利用收集到的机器人数据,包括专家演示、历史成功与失败的 rollout 数据、以及人类探索边界的「把玩」数据来进行离线强化学习预训练。这些策略会被部署到机器人集群中,机器人在自主执行任务或由人类接管时,生成的数据会实时混合之前的离线数据,在云端持续更新策略,将进化后的更强「大脑」下发给物理集群。

这使得每一个被部署的机器人既在执行任务,也是提供学习信号的数据源。



LWD pipeline 与算法架构概览。

在罗剑岚团队的具身智能训练过程中,机器人集群被投放到真实环境中执行理货、搬运等任务。在执行过程中,机器人身上的传感器会记录下每一次触碰、每一次抓取、以及物体滑落的力觉变化。这些第一手资料被不断传回云端,强化学习算法开始对策略进行迭代。

数据飞轮的转速直接由集群自身的运行规模决定,部署的机器人越多、在真实世界里运行得越久,模型吸取经验的速度就越快

不仅是实际部署的训练方式,LWD 的真正灵魂在于从失败中学习的机制。在传统的模仿学习眼里,只有人类专家的完美演示才是有效数据,这意味着 AI 只是在「背答案」。LWD 试图赋予机器人纠偏重试的本能,在其框架下,物理世界里所有类型的交互都能被提取出学习价值,那些搞砸的失败轨迹也会被全盘吸收。

这些都能教会它如何更好地在复杂的物理世界中维持稳态。

四大维度创新

为了让 VLA 能够在现实世界中持续训练,更好地消化大规模部署的机器人集群数据,攻克超长任务的误差累积,研究人员在 LWD 的底层架构上实现了四个维度的创新。

首先,LWD 的核心算法组件将价值评估与策略提取分离,这对于将离线到在线强化学习应用于基于流的 VLA 策略至关重要。在价值评估方面,LWD 引入了 DIVL(分布型隐式价值学习)。传统的强化学习需要去预测一个确切的标量分数,而 DIVL 则是用类似分类的方式拟合出一个「价值分布」,并能根据不确定性自适应调整策略。

这种方法不仅保留了评估的准确性,也很大程度上适应了物理世界中奖励稀疏、异构的集群经验回放(Fleet Replay)以及离线到在线的分布偏移场景,确保了即使在任务奖励极其稀疏、执行序列长达 3-5 分钟的情况下,系统依然能精准识别出到底是哪一秒的动作决定了最终的成败。

其次,针对目前先进 VLA 模型普遍采用的复杂流匹配(Flow-matching)架构,LWD 引入QAM(伴随匹配 Q 学习)来进行策略提取。它将价值网络引导的动作改进转化为沿着流轨迹的局部回归目标,巧妙地绕过了生成模型难以直接反向传播的阻碍,让动作模型能高效地听懂优化指令,无需依赖显式的动作似然函数,还大幅降低了算力开销,保障了策略更新的稳定性。

第三项关键技术,是专为攻克「长程操作」难题设计的动态多步 TD 策略(Dynamic n-step TD Strategy)。在现实物理任务中,强化学习关注的奖励极度稀疏。该策略会根据任务长度和训练阶段,智能调整预判未来的「步长(n)」。

例如在离线训练长程任务时,它会将步长拉大到 n=10,让成功信号迅速反向传导穿透整个动作周期;而在实机在线部署时,又会切回到 n=1。

这就完美兼顾了信号回传的效率,同时极大地降低了模型在线更新时的方差,确保了实机迭代的稳定。

最后,要让 LWD 整个数据飞轮转动起来,还需要有一个基础设施底座。研究人员提出了分段异步 Actor-Learner 架构。在训练的过程中,现实世界中负责执行和采集数据的「机器人集群(Actor)」与云端集中算力更新策略的「学习器(Learner)」彻底解耦。两边的规模可以独立扩容,互不干扰。前端机器人「随缘」地异步上传残次或成功的轨迹数据,而后端云端通过引入中央协调器打上「快照」截断,把前端异步的乱流,变成了同步的、全局一致的数据集进行训练。

这套基础设施为整套训练机制带来了稳定性,前端产生的数据化为云端学习的经验仅需 41 秒,而云端更新模型后通过发布 - 订阅频道推送到机器人端,中位数延迟仅需 38 秒。

真实世界大考

5 分钟长程操作,超 90% 成功率

为了验证 LWD 的能力,这套新方法部署到了 16 台 Agibot G1 双臂机器人上,并在真实环境中进行了 8 项操作任务测试。

其中最能验出系统成色的是 4 项分钟级长程连贯操作任务:泡功夫茶、榨果汁、调鸡尾酒以及打包鞋盒。



LWD 进行的评估任务。

在目前大多数机器人的演示视频中,我们看到的往往是「抓起苹果放到篮子里」这种持续十几秒的单一动作,对于商业落地来说,这还远远不够。

真实世界中的具身智能任务通常需要持续 3 到 5 分钟,包含几十个连续的物理交互子步骤。在这个漫长的过程中,误差会像滚雪球一样累积。泡茶的第一步抓取时偏了 1 厘米,可能导致第三步倒水时洒出,最终导致第五步完全崩溃。

这就要求机器人不仅要动作精准,更需要拥有从中间错误状态中恢复的能力,以及跨越长周期的贡献度分配(Credit Assignment)能力。

在长任务压力测试下, LWD 的优势逐渐凸显了出来。在所有 8 项任务的综合评分中,经过在线训练强化的 LWD (Online) 平均成功率达到了 0.95。作为对比,传统的纯行为克隆(SFT)只有 0.76,引入了人类干预纠偏的 HG-DAgger 方案为 0.85,而业内先进的离线后训练方案 RECAP 也止步于 0.85。



各项任务的成功率实验结果。可见 LWD 实现了卓越的性能,在获得更高成功率的同时,显著缩短了周期时间。



八项真实世界操作任务的主要结果,涵盖了四项杂货补货任务和四项长周期任务。LWD (Online) 方法取得了最佳的总平均分(0.95),在全部四项长周期任务中均获最高分。

在最困难的长程任务组,LWD (Online) 取得了 0.91 的平均得分,甩开了 RECAP 的 0.77 和 Dagger-SOP 的 0.73。在速度上 LWD 也有优势,其平均循环时间比纯行为克隆短了 23.75 秒。

值得一提的是,在这项研究 652.5 小时的离线数据池中,人类专家的完美演示占 51.6%,有多达 34.8% 的内容是完全失败的交互轨迹,包括历史策略搞砸的 Rollout,以及人类为了帮助价值函数区分成功与失败行为而制造的失败数据。

LWD 赋予了机器人在复杂物理交互中极强的稳定性与从容感,完美印证了飞轮效应的设想。

具身智能也进入「下半场」了?

在人工智能的大语言模型领域,整个行业正在经历一次重要的共识转变:算力与资源的重心,正从预训练(Pre-train)向后训练(Post-training)倾斜。

去年,AI 研究领域兴起了对于大模型「下半场」的讨论:为什么现在的 AI 已经能在各种人类考试中超越人类,甚至拿奥赛金牌,但现实世界、经济和 GDP 却似乎没有发生翻天覆地的变化?

人们认为问题在于评估(Evaluation),我们要把真实世界的效用作为新的评估标准,设计出贴近现实世界的新任务和新范式,而不是简单地设计更难的考卷。基于这个思路,后训练正在得到前所未有的重视,近期的一系列基础大模型也获得了性能上的突破。

后训练正在变得越来越重要,这种思考现在也得到了真实物理世界的验证。LWD 的出现,或许会如同大模型领域的 RLHF 一样成为转折点,推动新一轮的 Scale Up。

未来的通用机器人,比拼的不再仅仅是出厂时喂了多少数据,而是在千行百业中部署后主动学习的速度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
克鲁斯堡魔咒继续!赵心童10-13不敌墨菲,无缘世锦赛四强

克鲁斯堡魔咒继续!赵心童10-13不敌墨菲,无缘世锦赛四强

全景体育V
2026-04-30 05:34:55
离谱!出国“润”了一圈,回国后竟成了“自己人”,评论区有答案

离谱!出国“润”了一圈,回国后竟成了“自己人”,评论区有答案

谭谈社会
2026-04-30 15:12:40
高岗自杀后,彭德怀、林彪的表现令人感慨

高岗自杀后,彭德怀、林彪的表现令人感慨

深度报
2026-04-25 22:55:42
辽宁卫冕之路再进一步,后场组合依旧无解,CBA竞争格局变天!

辽宁卫冕之路再进一步,后场组合依旧无解,CBA竞争格局变天!

一点点想法
2026-04-30 15:09:23
马筱梅诚恳道歉,并辟谣了三件事,张兰汪大爷对汪宝有滤镜

马筱梅诚恳道歉,并辟谣了三件事,张兰汪大爷对汪宝有滤镜

草莓解说体育
2026-04-30 13:25:23
广东男篮今日最新动态!老板亲自到场激励球员,徐杰深夜发声,焦泊乔缺席原因曝光

广东男篮今日最新动态!老板亲自到场激励球员,徐杰深夜发声,焦泊乔缺席原因曝光

凯丰侃球
2026-04-30 09:08:58
杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

照见古今
2026-03-26 19:06:28
何润东出席“苏超”未收1分钱出场费,纯属友情演出

何润东出席“苏超”未收1分钱出场费,纯属友情演出

扬子晚报
2026-04-30 12:37:25
300万买500吨糖!全红婵爸爸一出手,狠狠打了多少流量网红的脸

300万买500吨糖!全红婵爸爸一出手,狠狠打了多少流量网红的脸

奇思妙想生活家
2026-04-30 10:52:09
震惊!“夏雨荷”一夜之间消失,济南大明湖的地标路牌,已经抹去

震惊!“夏雨荷”一夜之间消失,济南大明湖的地标路牌,已经抹去

火山詩话
2026-04-30 06:09:31
老友记停播20年后,六人组每年仍躺赚2000万美元

老友记停播20年后,六人组每年仍躺赚2000万美元

娱圈观察员
2026-04-29 00:16:28
为什么春秋战国时期有些人的名字很奇怪,甚至像是外文音译?

为什么春秋战国时期有些人的名字很奇怪,甚至像是外文音译?

奇怪的鲨鱼们
2026-04-29 20:05:04
俞敏洪回应东方甄选股权授予:从东方甄选成立到今天,没领一分钱工资;未来股权兑现后会用在设立董事长奖励基金、捐献一部分给北大等方面

俞敏洪回应东方甄选股权授予:从东方甄选成立到今天,没领一分钱工资;未来股权兑现后会用在设立董事长奖励基金、捐献一部分给北大等方面

鲁中晨报
2026-04-30 15:35:02
爆料:特斯拉将向国内员工推送 FSD v14.2 版!

爆料:特斯拉将向国内员工推送 FSD v14.2 版!

新浪财经
2026-04-29 20:30:44
张艺谋:原本打算与巩俐结婚,结果被一个男人搅散了,如今后悔吗

张艺谋:原本打算与巩俐结婚,结果被一个男人搅散了,如今后悔吗

徐慍解说
2026-04-28 22:48:33
没时间了,中方通牒送进东京,日本别无选择,高市已准备乘机离国

没时间了,中方通牒送进东京,日本别无选择,高市已准备乘机离国

爱意随风起呀
2026-04-30 10:43:43
外卖骑手救助昏倒老人,反被索要20万赔偿,法院当庭播放视频

外卖骑手救助昏倒老人,反被索要20万赔偿,法院当庭播放视频

兰姐说故事
2025-06-02 20:00:04
上海普陀区房价大幅下滑区域

上海普陀区房价大幅下滑区域

石辰搞笑日常
2026-04-30 07:32:55
凉拌黄瓜别先放盐放醋,教你正确做法,比饭店的还好吃

凉拌黄瓜别先放盐放醋,教你正确做法,比饭店的还好吃

开心美食白科
2026-04-29 17:10:15
1998年我吹牛说要娶女老师为妻,最后她真的成了我的妻子

1998年我吹牛说要娶女老师为妻,最后她真的成了我的妻子

千秋文化
2026-04-17 20:06:49
2026-04-30 16:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12895文章数 142640关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

海军宣传片中的新兵何剑谐音“核舰” 国防部回应

头条要闻

海军宣传片中的新兵何剑谐音“核舰” 国防部回应

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

医美偷税手法曝光 借免税优惠来避税被封堵

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

房产
健康
教育
时尚
军事航空

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

干细胞治烧烫伤能用了么?

教育要闻

3分钟学会一个雅思7分句/段(第341期)

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

军事要闻

意大利议会批准:捐赠航母给印度尼西亚

无障碍浏览 进入关怀版