网易首页 > 网易号 > 正文 申请入驻

拒绝“出厂即巅峰”!具身训练系统再进化:LWD让机器人自主开启“打怪练级”

0
分享至


智东西
作者 江宇
编辑 漠影

当前具身智能的发展,正卡在一个越来越明确的瓶颈上:数据规模与真实世界经验的不足

过去几年,VLA等大模型让机器人在“预训练阶段”取得了显著进展,但一旦进入真实部署环境,问题随之暴露——面对复杂、多变的物理世界,模型能力很难持续提升,依然高度依赖人工标注数据和重复训练

这也意味着,具身智能尚未真正进入“规模化增长”的阶段。

仅依赖实验室数据或仿真环境,很难支撑机器人能力的持续演进;真正能够带来跃迁的,仍然是来自真实世界、持续积累的高质量交互数据。但问题在于:这些数据从哪里来?

现阶段,大量训练数据仍依赖人工示教或遥操作采集,规模有限、成本高昂,且难以覆盖开放环境中的复杂长尾场景。

要让数据规模真正“滚动起来”,唯一可行的路径,是让机器人走出实验室,在真实场景中长期运行,并将交互经验持续回流。

也正是在这一背景下,上海创智学院和智元具身研究中心联合发布了最新成果罗剑岚团队提出LWD(Learning While Deploying)大规模强化学习训练系统。该工作由创智学院导师,智元首席科学家罗剑岚团队完成。尝试将“部署”本身转化为学习过程的一部分。


这项工作并不聚焦单一算法突破,更给出了一种更具工程可行性的方案——通过在真实世界中持续运行机器人,并将其行为数据统一回流与更新,让每一台机器人既是任务执行者,也是持续产生学习信号的数据源,从而推动通用策略在部署过程中不断进化

一、让数据飞轮在物理世界自主狂奔

传统模仿学习范式下,非完美的运行轨迹往往被视为“废数据”直接丢弃,机器人只能从成功的人类演示中刻板地模仿。

LWD的核心颠覆在于,它构建了一个由真实世界强化学习驱动的闭环数据飞轮

在这个飞轮中,机器人集群在真实任务中自主执行并积累异构的交互经验,无论是完美的成功轨迹、试错后的自我恢复、还是人类为了覆盖边界情况而引导的失败案例,都会被统一输送至云端的共享重放缓冲区。

强化学习机制使得这些在传统视角下的“失败”或“意外”数据,全部转化为了指导模型规避错误、优化价值评估的宝贵经验。

随着集群部署规模的扩大和运行时间的累积,数据飞轮的转速不断提升,云端持续更新的强策略又会定期下发给机器人,形成真正的自主造血闭环。

二、强化学习算法深层进化:在嘈杂数据中,精准捕捉“进步”信号

将强化学习应用于真实世界部署的大规模机器人集群,面临着极端的算法挑战。

不同机器人在不同任务中产生的数据极其庞杂,包含着完全不同的指令、长短不一的操作过程,以及非常稀疏的奖励反馈。

为了在这些充满噪声的“异质数据”中稳定提取有用的学习信号,LWD创新性地引入了分布隐式价值学习(DIVL)算法。

简单来说,以往的算法像是在给机器人的表现打一个固定的“平均分”,但在复杂环境中这种打分极不准确;而DIVL则让机器人学会去理解表现的“概率分布”,它不再只看一个点,而是观察整个可能性的区间。

这让机器人在很少得到明确奖励的情况下,也能精准判断哪些动作风险更高、哪些动作更值得尝试,从而有效解决了评价不准、容易过度乐观的老大难问题。

与此同时,针对VLA模型通过多步去噪产生动作的特点,传统的更新方式计算量大且容易跑偏。

LWD结合了Q-learning with Adjoint Matching(QAM),为模型找到了一条数学上的“进化捷径”,让复杂的策略更新不再需要推倒重来,而是通过局部调整就能实现快速迭代,保证了机器人在大规模部署时的学习效率。


三、炼就“通才策略”:挑战5分钟长程复杂操作的极限成功率

为了验证这套训练框架的实战表现,研究团队在智元G1双臂机器人集群上进行了大规模的真实世界部署测试

测试涵盖了八项极具挑战性的多模态操作任务,包括四类考验语义识别与泛化的商超货架动态补货任务,以及泡功夫茶、榨果汁、调酒、装鞋入盒等四类长程连贯操作任务。


▲评测任务示意图。(A)调制鸡尾酒;(B)冲泡功夫茶;(C)制作果汁;(D)装鞋入盒;(E)商超补货。

在这些持续时间长达5到8分钟、包含数十个接触丰富且存在长程依赖的物理交互任务中,LWD展现出了压倒性的优势。


▲各任务逐步成功率的实验结果

实验数据显示,经过在线真实经验积累后,LWD训练出的单一通用策略在所有任务上的平均成功率达到了惊人的0.95,远超纯行为克隆(0.76)以及先进的离线强化学习基线如RECAP(0.86)和 Dagger-SOP(0.82)。


▲八项真实世界操作任务的主要结果,涵盖四类商超补货任务和四类长程任务。结果显示,LWD(在线)取得了最高的整体平均成绩,并在四项长程任务中全部获得最高分,同时在商超补货任务中也保持在最优或接近最优水平。


▲调制鸡尾酒

尤其在最考验中间错误恢复与长期信用分配的长程任务中,LWD在线更新后的成功率实现了极大幅度的跃升,证明了基于物理世界经验的持续学习是突破复杂操作天花板的有效路径。


▲图中展示了功夫茶任务中一次成功执行(左)和一次失败执行(右)的价值曲线。结果表明,所学习到的价值能够对任务完成进度提供有意义的表征。

结语:把“部署”变成能力增长起点,让机器人在真实世界持续进化

在具身智能的产业化进程中,LWD推动的不仅是算法框架的升级,更是机器人能力迭代方式的一次重要转向。

长久以来,业界习惯将“部署”视为模型训练的终点,而LWD的提出证明了,自主改进应当成为通用机器人策略的基本属性。

学习不应是“出厂即封存的静态能力”,而必须成为部署之后在真实世界里一直延续的进化过程。

只有赋予机器人从海量无序的真实物理交互中自主提取“养分”、持续自我进化的能力,其才能真正打破被人工标注数据框定的舒适区,在千行百业的复杂、开放场景中长久地释放商业价值。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗向美国转交最新谈判方案,国际油价跌超5%

伊朗向美国转交最新谈判方案,国际油价跌超5%

澎湃新闻
2026-05-01 23:19:03
国际油价,快速下跌

国际油价,快速下跌

第一财经资讯
2026-05-01 22:19:51
蔡一杰脑癌扩散!59岁频繁回内地农村老家,重温童年时光

蔡一杰脑癌扩散!59岁频繁回内地农村老家,重温童年时光

原梦叁生
2026-04-30 08:10:48
中美之争将落幕?现实比想象残酷:美国不是输了,是下不了牌桌了

中美之争将落幕?现实比想象残酷:美国不是输了,是下不了牌桌了

小冠说娱
2026-04-30 15:12:40
这是刚刚的解放桥、天津站!天津铁路人流量明显增长!天津高速管控通告!五一这些区域人流管控!还有蓝色预警……

这是刚刚的解放桥、天津站!天津铁路人流量明显增长!天津高速管控通告!五一这些区域人流管控!还有蓝色预警……

天津族
2026-05-01 00:50:16
不满,湖人球迷对斯科特福斯特执法对阵火箭的第六场比赛感到愤怒

不满,湖人球迷对斯科特福斯特执法对阵火箭的第六场比赛感到愤怒

好火子
2026-05-02 00:55:52
《乘风2026》三公路透,“李小冉毫无运动痕迹”登上热搜

《乘风2026》三公路透,“李小冉毫无运动痕迹”登上热搜

落雪听梅a
2026-05-01 04:58:46
为什么屡屡超车的申花,这一次没追近成都蓉城

为什么屡屡超车的申花,这一次没追近成都蓉城

上观新闻
2026-05-02 00:01:07
叶新萍已被查实,举报人再爆院长儿子:一个人霸占整个科室的福利

叶新萍已被查实,举报人再爆院长儿子:一个人霸占整个科室的福利

阿芒娱乐说
2026-05-02 00:49:31
女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

丫头舫
2026-05-01 22:17:59
一架专机抵台,赖清德乐了!转身却发现:特朗普早就对中国变了脸

一架专机抵台,赖清德乐了!转身却发现:特朗普早就对中国变了脸

悄悄史话
2026-05-01 23:10:15
太不应该!郑智挑衅+辱骂主裁判,遭红牌驱逐,这点远不如邵佳一

太不应该!郑智挑衅+辱骂主裁判,遭红牌驱逐,这点远不如邵佳一

国足风云
2026-05-01 21:30:23
72岁王健林,被逼到崩溃边缘......

72岁王健林,被逼到崩溃边缘......

酷温coolwin
2026-04-24 16:46:47
医生:恶性肿瘤最危险信号,不是疼痛,而是频繁出现这几种异常

医生:恶性肿瘤最危险信号,不是疼痛,而是频繁出现这几种异常

医学原创故事会
2026-05-01 23:48:13
正式确认!勇士重启交易,1.49亿前锋或加盟,库里的冠军梦全靠他

正式确认!勇士重启交易,1.49亿前锋或加盟,库里的冠军梦全靠他

体育大朋说
2026-05-01 13:45:03
19岁皇马神童横空出世 解约金5000万欧 5豪强疯抢 最热门下家浮现

19岁皇马神童横空出世 解约金5000万欧 5豪强疯抢 最热门下家浮现

零度眼看球
2026-05-01 07:05:30
59岁歌手张宇患罕见病20年,妻子十一郎首度公开内情:无法彻底根治,严重到不唱歌连说话都可能出问题

59岁歌手张宇患罕见病20年,妻子十一郎首度公开内情:无法彻底根治,严重到不唱歌连说话都可能出问题

芒果都市
2026-05-01 17:45:29
人气小生被暗封杀了?孟子义李昀锐闹分手?陈晓没人捧了?马景涛嫌女友脾气差?姨太问答

人气小生被暗封杀了?孟子义李昀锐闹分手?陈晓没人捧了?马景涛嫌女友脾气差?姨太问答

毒舌扒姨太
2026-05-01 22:55:37
赢21分的局,前国手在场输4分,球迷:你能打职业是对篮球的侮辱

赢21分的局,前国手在场输4分,球迷:你能打职业是对篮球的侮辱

弄月公子
2026-05-01 22:39:33
60比86惨败26分!女篮劲敌热身赛输麻了:日本队世界杯前景堪忧?

60比86惨败26分!女篮劲敌热身赛输麻了:日本队世界杯前景堪忧?

篮球快餐车
2026-05-01 05:52:28
2026-05-02 01:31:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11742文章数 117060关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

游戏
房产
健康
手机
教育

索尼新作又搞同性恋被喷!玩家盘点“女同角色”吐槽

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

干细胞治烧烫伤面临这些“瓶颈”

手机要闻

曝iPhone18Pro相机史诗级升级,这次你期待吗?

教育要闻

高考作文遇见反躺平:提倡奋斗,反对躺平

无障碍浏览 进入关怀版