网易首页 > 网易号 > 正文 申请入驻

PI最新VLA模型登场!机器人叠衣服、做咖啡、组装纸箱成功率翻倍

0
分享至


机器人前瞻(公众号:robot_pro)
作者 许丽思
编辑 漠影

机器人前瞻11月18日报道,今天,Physical Intelligence(简称PI)发布了旗下最新机器人基础模型π*0.6。

PI是一家2024年成立于美国旧金山的机器人初创公司,团队堪称全明星阵容,CEO兼联合创始人Karol Hausman曾是Google DeepMind资深研究科学家;联合创始人还包括强化学习领域领军人物Sergey Levine、斯坦福大学教授Chelsea Finn等。

PI的融资节奏和估值增长也十分迅猛:2024年3月种子轮融资中,以约4亿美元估值筹集7000万美元;同年11月完成4亿美元A轮融资,估值飙升至24亿美元。今年9月,有消息称其正讨论以50亿美元估值开展新一轮融资,若落地则成立18个月内估值将翻12倍。

Sergey Levine表示,搭载了π*0.6的机器人,已经在旧金山办公室里为同事们制作拿铁、美式咖啡和意式浓缩咖啡了,能够狂干13小时,中间只有几次中断。

网友:这做咖啡的手法和效率,意大利人看了都备受震撼。

机器人还连续叠了3个小时衣服,衣服类型五花八门,叠一件衣服大概需要3分钟。


针对组装纸箱的任务,机器人连续组装了1个小时,每个箱子大概需要两分半钟。

从PI发布的技术博客来看,π*0.6在多项任务的表现上,实现了吞吐量(每小时成功完成任务的次数)和成功率较基础模型翻倍,成功率超90%。

尤其是做咖啡这项任务,π*0.6较基础模型的提升幅度非常明显。不过,也有眼尖的网友发现,机器人在制作拿铁时,跳过了用蒸汽处理牛奶的关键步骤。看来机器人离成为一个合格的咖啡店员,还得再多练练。

一、纠正式指导+强化学习,破解模仿学习的累积错误难题

RECAP实现了三个关键步骤:通过演示训练机器人、通过纠正进行指导,并使机器人能够从自主经验中改进。这解决了模仿学习在机器人技术中的关键缺陷:小错误在现实实践中引发累积错误,降低可靠性。

Recap能够使研究人员通过两种方式从“质量较差”的经验数据中获取良好的训练信号:

1、纠正式指导(coaching with corrections)

由专家展示机器人如何修复错误或做得更好,从而提供修正。

想要让纠正式指导真正有用,专家远程操控者需要提供的是:在真实世界里,机器人实际犯错之后,怎样从这些错误中恢复的纠正示范。在实践中,这意味着运行当前最好的策略,当机器人犯错时,用人工远程操控接管它。

但是,仅仅依靠纠正式指导是有限的:这类监督的质量受制于人类是否能及时判断应当介入以及是否能提供高质量的纠正。对于那些特别明显或严重的错误,这种方式是有效的。

不过,就像运动员如果不自己反复练习,是不可能真正掌握一项运动一样,研究人员需要一种办法,让策略可以通过通过练习和强化继续学习和完善其行为的微小细节。

2、强化学习(reinforcement learning)

机器人依据整个任务过程的最终结果,自行判断哪些行为更好或更差,并通过迭代学习强化好的行为、避免不好的行为。

通过任务结果来进行强化学习的核心难题是信用分配(credit assignment):也就是弄清楚机器人在整个过程中做的哪些动作导致了好的结果,而哪些动作导致了坏的结果。

比如,如果机器人用错误的方式拿起意式咖啡机的手柄,那之后它在把手柄插回机器里时可能就会遇到困难。真正的错误并不在“插入”这个动作本身,而是在更早之前的抓取动作。


▲通过模仿学习训练的基础模型,在将手柄插入意式咖啡机时会遇到困难。

一个正确的信用分配方法应当能把这次失败归因到那次抓取上,即使失败是在后面才表现出来的。

Recap 通过训练一个价值函数来应对这样的信用分配难题,价值函数是一个模型,它能够预测特定情境相对于其他情境有多好。

举个例子,在国际象棋这类游戏中,智能体只会在赢棋时获得奖励,那么价值函数可以根据当前棋局来预测智能体获胜的概率。

如果研究人员能从机器人的经验中学到这样的价值函数,就可以通过价值函数的变化来判断一个动作是好是坏:那些让价值函数变大的动作,就像让棋局更接近胜利的落子,是应该被鼓励的好动作;而那些让价值函数变小的动作,则应该被抑制。

二、吞吐量和成功率较基础模型翻倍,任务成功率超90%

PI使用Recap来训练π*(0.6)模型,使其能够执行多项真实世界应用。π*(0.6)是基于π(0.6)模型训练而来的,而π(0.6)是早期π(0.5)模型的改进版本。


研究人员测试了三个应用场景:制作浓缩咖啡饮品、折叠各种衣物以及组装包装箱,这每一项任务都包含许多挑战:

制作咖啡流程长,要求机器人能够倾倒液体、把握好咖啡制作时间、制作完成后清理机器等。

叠衣物,机器人需要能够处理高度的多样性,对不同衣物采用不同的折叠方法。

组装包装箱,机器人需在保持箱体结构的同时折叠箱盖,还要应对箱子粘连等特殊情况。


Recap的第一阶段,是用离线强化学习(offline RL)对π*(0.6)模型进行预训练,这一点与基础的 π(0.6)和π(0.5)用纯监督学习训练的方式不同。在此基础上,研究人员再用示范数据对π*(0.6)进行按任务的微调,接着再用在机器人上采集到的额外数据进行强化学习训练:其中既包括专家提供的纠正,用来修复大的错误,也包括基于奖励信号的反馈,让模型能从自主经验中学习提升。

研究人员对比了几种模型的表现:基础π(0.6)模型(通过监督学习训练)、基础π*(0.6)模型(通过离线 RL训练,即Recap的第一阶段)、经过演示数据微调后的π*(0.6)模型,以及最终经过机器上经验微调后的 π*(0.6)模型。

从最终结果来看,对于像做咖啡这样的颇具挑战性的任务,在加入机器人的真实执行经验后,吞吐量和成功率都提升了超过两倍,均实现了超过90%的成功率。


结语:从经验中学习,或将成为高性能模型的关键一部分

目前,机器人基础模型主要使用的是由人工采集的示范数据(例如远程操控)。这种方式让训练流程变得简单、直接,但也带来了一个非常严峻的障碍:数据采集需要大量人工投入;模型的速度和鲁棒性受限于人类水平;而且机器人本身不会因为积累经验而逐渐变得更强。

而像Recap这样的方法,理论上可以通过直接从机器人自身的经验中学习,从而解决这些限制。

随着机器人在真实世界中的部署越来越广泛,来自经验的学习有可能会是一个非常重要的训练数据来源,并成为实现高性能表现的关键组成部分。

就像人类是通过“讲解+指导+练习”的组合方式来学习一样,机器人未来也会从许多不同的数据源中学习。不过,这些数据源会承担不同的角色:专家示范,用来定义新的行为;纠正式指导,用来打磨和优化策略;而自主经验——很可能是规模最大的数据来源——则用来把这些行为打磨到极致,甚至有望最终达到超越人类的表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官宣到队!超级外援正式加盟广东宏远,朱芳雨千挑万选

官宣到队!超级外援正式加盟广东宏远,朱芳雨千挑万选

篮球大陆
2025-11-19 18:05:33
锁定5连胜?火箭vs骑士一边倒,乌度卡变阵收奇效,谢泼德再爆发

锁定5连胜?火箭vs骑士一边倒,乌度卡变阵收奇效,谢泼德再爆发

小彭美识
2025-11-20 09:39:47
刚下飞机就收传票,李圣遇袭案二审将至,曾在法院遭被告父亲殴打

刚下飞机就收传票,李圣遇袭案二审将至,曾在法院遭被告父亲殴打

阿纂看事
2025-11-20 09:27:16
恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

不写散文诗
2025-11-19 18:10:06
梅婷在北京别墅请客吃烤肉,自家菜园里摘白菜萝卜,颖儿又来了

梅婷在北京别墅请客吃烤肉,自家菜园里摘白菜萝卜,颖儿又来了

汪镛的创业之路
2025-11-18 19:49:10
建议中年男人:冲锋衣尽量别穿“始祖鸟、骆驼”,3种国货更高级

建议中年男人:冲锋衣尽量别穿“始祖鸟、骆驼”,3种国货更高级

时尚搭配师Nicole
2025-10-27 00:01:58
世界杯最后6席!附加赛今晚抽签:意大利生死战,伊拉克赢1场出线

世界杯最后6席!附加赛今晚抽签:意大利生死战,伊拉克赢1场出线

念洲
2025-11-20 07:43:13
霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

手工制作阿歼
2025-11-19 09:56:53
中国“摸着石头过河”数十年,“石头”终于快被摸完了

中国“摸着石头过河”数十年,“石头”终于快被摸完了

朔方瞭望
2025-11-08 11:29:44
只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

乡野小珥
2025-11-18 07:31:38
细节被扒,王楚钦陈梦恋情实锤?9个月后遇陈梦,谁注意大头反应

细节被扒,王楚钦陈梦恋情实锤?9个月后遇陈梦,谁注意大头反应

懂球社
2025-11-18 19:09:49
WOW!生涯最佳一战!开拓者主帅点评杨瀚森

WOW!生涯最佳一战!开拓者主帅点评杨瀚森

篮球实战宝典
2025-11-19 15:52:31
一边倒!火箭打爆东部豪强:杜兰特13分,替补奇兵连续爆发

一边倒!火箭打爆东部豪强:杜兰特13分,替补奇兵连续爆发

体坛小李
2025-11-20 09:27:53
戾气越来越重了!

戾气越来越重了!

深度报
2025-11-13 23:06:32
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
里老大!詹皇赛后更衣室采访,里夫斯大喊:那位G联盟的球员打得不赖

里老大!詹皇赛后更衣室采访,里夫斯大喊:那位G联盟的球员打得不赖

818体育
2025-11-19 18:15:02
以军空袭加沙多地 已致10人死亡

以军空袭加沙多地 已致10人死亡

环球网资讯
2025-11-20 02:34:06
渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

豆腐脑观察局
2025-11-17 06:50:03
3年之后,两岸统一的希望,恐将落在这个人的身上!

3年之后,两岸统一的希望,恐将落在这个人的身上!

老范谈史
2025-10-18 21:13:14
广东升温,就在今天!

广东升温,就在今天!

鲁中晨报
2025-11-20 07:01:06
2025-11-20 14:07:00
机器人前瞻
机器人前瞻
专注于机器人报道的媒体
219文章数 4关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

旅游
健康
本地
公开课
军事航空

旅游要闻

不止聚人气,更要留价值!虹口“文旅商体展”联动的优质答卷 | 解读虹口“十四五”

警惕超声报告这六大"坑"

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版