网易首页 > 网易号 > 正文 申请入驻

PI最新VLA模型登场!机器人叠衣服、做咖啡、组装纸箱成功率翻倍

0
分享至


机器人前瞻(公众号:robot_pro)
作者 许丽思
编辑 漠影

机器人前瞻11月18日报道,今天,Physical Intelligence(简称PI)发布了旗下最新机器人基础模型π*0.6。

PI是一家2024年成立于美国旧金山的机器人初创公司,团队堪称全明星阵容,CEO兼联合创始人Karol Hausman曾是Google DeepMind资深研究科学家;联合创始人还包括强化学习领域领军人物Sergey Levine、斯坦福大学教授Chelsea Finn等。

PI的融资节奏和估值增长也十分迅猛:2024年3月种子轮融资中,以约4亿美元估值筹集7000万美元;同年11月完成4亿美元A轮融资,估值飙升至24亿美元。今年9月,有消息称其正讨论以50亿美元估值开展新一轮融资,若落地则成立18个月内估值将翻12倍。

Sergey Levine表示,搭载了π*0.6的机器人,已经在旧金山办公室里为同事们制作拿铁、美式咖啡和意式浓缩咖啡了,能够狂干13小时,中间只有几次中断。

网友:这做咖啡的手法和效率,意大利人看了都备受震撼。

机器人还连续叠了3个小时衣服,衣服类型五花八门,叠一件衣服大概需要3分钟。


针对组装纸箱的任务,机器人连续组装了1个小时,每个箱子大概需要两分半钟。

从PI发布的技术博客来看,π*0.6在多项任务的表现上,实现了吞吐量(每小时成功完成任务的次数)和成功率较基础模型翻倍,成功率超90%。

尤其是做咖啡这项任务,π*0.6较基础模型的提升幅度非常明显。不过,也有眼尖的网友发现,机器人在制作拿铁时,跳过了用蒸汽处理牛奶的关键步骤。看来机器人离成为一个合格的咖啡店员,还得再多练练。

一、纠正式指导+强化学习,破解模仿学习的累积错误难题

RECAP实现了三个关键步骤:通过演示训练机器人、通过纠正进行指导,并使机器人能够从自主经验中改进。这解决了模仿学习在机器人技术中的关键缺陷:小错误在现实实践中引发累积错误,降低可靠性。

Recap能够使研究人员通过两种方式从“质量较差”的经验数据中获取良好的训练信号:

1、纠正式指导(coaching with corrections)

由专家展示机器人如何修复错误或做得更好,从而提供修正。

想要让纠正式指导真正有用,专家远程操控者需要提供的是:在真实世界里,机器人实际犯错之后,怎样从这些错误中恢复的纠正示范。在实践中,这意味着运行当前最好的策略,当机器人犯错时,用人工远程操控接管它。

但是,仅仅依靠纠正式指导是有限的:这类监督的质量受制于人类是否能及时判断应当介入以及是否能提供高质量的纠正。对于那些特别明显或严重的错误,这种方式是有效的。

不过,就像运动员如果不自己反复练习,是不可能真正掌握一项运动一样,研究人员需要一种办法,让策略可以通过通过练习和强化继续学习和完善其行为的微小细节。

2、强化学习(reinforcement learning)

机器人依据整个任务过程的最终结果,自行判断哪些行为更好或更差,并通过迭代学习强化好的行为、避免不好的行为。

通过任务结果来进行强化学习的核心难题是信用分配(credit assignment):也就是弄清楚机器人在整个过程中做的哪些动作导致了好的结果,而哪些动作导致了坏的结果。

比如,如果机器人用错误的方式拿起意式咖啡机的手柄,那之后它在把手柄插回机器里时可能就会遇到困难。真正的错误并不在“插入”这个动作本身,而是在更早之前的抓取动作。


▲通过模仿学习训练的基础模型,在将手柄插入意式咖啡机时会遇到困难。

一个正确的信用分配方法应当能把这次失败归因到那次抓取上,即使失败是在后面才表现出来的。

Recap 通过训练一个价值函数来应对这样的信用分配难题,价值函数是一个模型,它能够预测特定情境相对于其他情境有多好。

举个例子,在国际象棋这类游戏中,智能体只会在赢棋时获得奖励,那么价值函数可以根据当前棋局来预测智能体获胜的概率。

如果研究人员能从机器人的经验中学到这样的价值函数,就可以通过价值函数的变化来判断一个动作是好是坏:那些让价值函数变大的动作,就像让棋局更接近胜利的落子,是应该被鼓励的好动作;而那些让价值函数变小的动作,则应该被抑制。

二、吞吐量和成功率较基础模型翻倍,任务成功率超90%

PI使用Recap来训练π*(0.6)模型,使其能够执行多项真实世界应用。π*(0.6)是基于π(0.6)模型训练而来的,而π(0.6)是早期π(0.5)模型的改进版本。


研究人员测试了三个应用场景:制作浓缩咖啡饮品、折叠各种衣物以及组装包装箱,这每一项任务都包含许多挑战:

制作咖啡流程长,要求机器人能够倾倒液体、把握好咖啡制作时间、制作完成后清理机器等。

叠衣物,机器人需要能够处理高度的多样性,对不同衣物采用不同的折叠方法。

组装包装箱,机器人需在保持箱体结构的同时折叠箱盖,还要应对箱子粘连等特殊情况。


Recap的第一阶段,是用离线强化学习(offline RL)对π*(0.6)模型进行预训练,这一点与基础的 π(0.6)和π(0.5)用纯监督学习训练的方式不同。在此基础上,研究人员再用示范数据对π*(0.6)进行按任务的微调,接着再用在机器人上采集到的额外数据进行强化学习训练:其中既包括专家提供的纠正,用来修复大的错误,也包括基于奖励信号的反馈,让模型能从自主经验中学习提升。

研究人员对比了几种模型的表现:基础π(0.6)模型(通过监督学习训练)、基础π*(0.6)模型(通过离线 RL训练,即Recap的第一阶段)、经过演示数据微调后的π*(0.6)模型,以及最终经过机器上经验微调后的 π*(0.6)模型。

从最终结果来看,对于像做咖啡这样的颇具挑战性的任务,在加入机器人的真实执行经验后,吞吐量和成功率都提升了超过两倍,均实现了超过90%的成功率。


结语:从经验中学习,或将成为高性能模型的关键一部分

目前,机器人基础模型主要使用的是由人工采集的示范数据(例如远程操控)。这种方式让训练流程变得简单、直接,但也带来了一个非常严峻的障碍:数据采集需要大量人工投入;模型的速度和鲁棒性受限于人类水平;而且机器人本身不会因为积累经验而逐渐变得更强。

而像Recap这样的方法,理论上可以通过直接从机器人自身的经验中学习,从而解决这些限制。

随着机器人在真实世界中的部署越来越广泛,来自经验的学习有可能会是一个非常重要的训练数据来源,并成为实现高性能表现的关键组成部分。

就像人类是通过“讲解+指导+练习”的组合方式来学习一样,机器人未来也会从许多不同的数据源中学习。不过,这些数据源会承担不同的角色:专家示范,用来定义新的行为;纠正式指导,用来打磨和优化策略;而自主经验——很可能是规模最大的数据来源——则用来把这些行为打磨到极致,甚至有望最终达到超越人类的表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人生很灵的玄学:没做成的事、没留住的人,其实都是老天在护你

人生很灵的玄学:没做成的事、没留住的人,其实都是老天在护你

千秋历史
2026-02-22 19:37:18
放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

路医生健康科普
2026-02-06 16:16:28
迪拜机场再次被炸!被困女星已失联,工作室保持沉默,后果不敢想

迪拜机场再次被炸!被困女星已失联,工作室保持沉默,后果不敢想

娱说瑜悦
2026-03-04 14:46:21
中国男篮重磅消息!主帅郭士强遭国际篮联审查,杨瀚森确认归队

中国男篮重磅消息!主帅郭士强遭国际篮联审查,杨瀚森确认归队

许穋很机智
2026-03-05 00:49:50
美司令首度公开承认:中国卫星实力太强,美军已到必须反击的时刻

美司令首度公开承认:中国卫星实力太强,美军已到必须反击的时刻

盼叶落归根
2026-03-03 19:33:23
约旦宣布重新开放领空

约旦宣布重新开放领空

新华社
2026-03-03 23:48:02
妮可基德曼去肥伦家约会,他打游戏90分钟不说话:她以为他是gay…5年后同框全网嗑疯

妮可基德曼去肥伦家约会,他打游戏90分钟不说话:她以为他是gay…5年后同框全网嗑疯

北美省钱快报
2026-03-05 08:28:27
至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

鲸探所长
2026-02-05 16:41:09
三号援军到位,伊朗还能扛得住!鲁比奥:大规模行动还在后头

三号援军到位,伊朗还能扛得住!鲁比奥:大规模行动还在后头

轩逸阿II
2026-03-05 09:22:00
俄称乌克兰无人艇在地中海袭击俄天然气运输船,船上30名俄罗斯籍船员全部获救,俄方将此次事件定性为国际恐怖主义和海盗行为

俄称乌克兰无人艇在地中海袭击俄天然气运输船,船上30名俄罗斯籍船员全部获救,俄方将此次事件定性为国际恐怖主义和海盗行为

潇湘晨报
2026-03-04 18:29:44
美国:美军保障海上航行自由,伊朗已撤出阿曼湾的所有舰船

美国:美军保障海上航行自由,伊朗已撤出阿曼湾的所有舰船

一种观点
2026-03-03 10:08:46
广东男子展示40岁战船鱼?戏称其地位比自己高,网友:风水鱼!

广东男子展示40岁战船鱼?戏称其地位比自己高,网友:风水鱼!

狸猫之一的动物圈
2026-02-17 09:15:10
欧洲天然气价格下跌7%

欧洲天然气价格下跌7%

每日经济新闻
2026-03-04 18:26:06
连号爆发,10注头奖遍地开花!26022期大乐透精选号码冲击奖池!

连号爆发,10注头奖遍地开花!26022期大乐透精选号码冲击奖池!

王晓爱体彩
2026-03-05 09:10:52
马年元宵14主持同台!龙洋换眼妆,凡舒回应披发,唯朱迅格格不入

马年元宵14主持同台!龙洋换眼妆,凡舒回应披发,唯朱迅格格不入

一盅情怀
2026-03-05 07:36:42
渤海完全属于中国!因当年毛主席的一句话,如今没有一艘外船敢进

渤海完全属于中国!因当年毛主席的一句话,如今没有一艘外船敢进

抽象派大师
2025-12-11 17:05:41
突然大涨!超12万人爆仓

突然大涨!超12万人爆仓

中国基金报
2026-03-04 19:14:48
台湾统一方式或出乎意料,特朗普才发现:中国真高明,自己学不来

台湾统一方式或出乎意料,特朗普才发现:中国真高明,自己学不来

卷史
2026-01-29 16:18:40
看到陈昊宇因为不尊重前辈被骂上热搜,杨天真又说对了!

看到陈昊宇因为不尊重前辈被骂上热搜,杨天真又说对了!

小娱乐悠悠
2026-03-04 10:13:21
成都一家3口滞留迪拜5天:曾听到美领馆附近有遇袭爆炸声,当地生活正常

成都一家3口滞留迪拜5天:曾听到美领馆附近有遇袭爆炸声,当地生活正常

封面新闻
2026-03-05 00:47:10
2026-03-05 10:32:49
机器人前瞻
机器人前瞻
专注于机器人报道的媒体
383文章数 8关注度
往期回顾 全部

科技要闻

4599元起!MacBook Neo发布:搭载A18 Pro

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

李强正在作政府工作报告

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

房产
艺术
本地
公开课
军事航空

房产要闻

400组,30套!聚亿·椰海锦程为何能在春节火出圈?

艺术要闻

我们真的应该在中小学大力推广书法艺术吗?

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗首次使用"哈迪德110"高速无人机

无障碍浏览 进入关怀版