![]()
机器人前瞻(公众号:robot_pro)
作者 许丽思
编辑 漠影
机器人前瞻11月18日报道,今天,Physical Intelligence(简称PI)发布了旗下最新机器人基础模型π*0.6。
PI是一家2024年成立于美国旧金山的机器人初创公司,团队堪称全明星阵容,CEO兼联合创始人Karol Hausman曾是Google DeepMind资深研究科学家;联合创始人还包括强化学习领域领军人物Sergey Levine、斯坦福大学教授Chelsea Finn等。
PI的融资节奏和估值增长也十分迅猛:2024年3月种子轮融资中,以约4亿美元估值筹集7000万美元;同年11月完成4亿美元A轮融资,估值飙升至24亿美元。今年9月,有消息称其正讨论以50亿美元估值开展新一轮融资,若落地则成立18个月内估值将翻12倍。
Sergey Levine表示,搭载了π*0.6的机器人,已经在旧金山办公室里为同事们制作拿铁、美式咖啡和意式浓缩咖啡了,能够狂干13小时,中间只有几次中断。
网友:这做咖啡的手法和效率,意大利人看了都备受震撼。
机器人还连续叠了3个小时衣服,衣服类型五花八门,叠一件衣服大概需要3分钟。
针对组装纸箱的任务,机器人连续组装了1个小时,每个箱子大概需要两分半钟。
从PI发布的技术博客来看,π*0.6在多项任务的表现上,实现了吞吐量(每小时成功完成任务的次数)和成功率较基础模型翻倍,成功率超90%。
尤其是做咖啡这项任务,π*0.6较基础模型的提升幅度非常明显。不过,也有眼尖的网友发现,机器人在制作拿铁时,跳过了用蒸汽处理牛奶的关键步骤。看来机器人离成为一个合格的咖啡店员,还得再多练练。
一、纠正式指导+强化学习,破解模仿学习的累积错误难题
RECAP实现了三个关键步骤:通过演示训练机器人、通过纠正进行指导,并使机器人能够从自主经验中改进。这解决了模仿学习在机器人技术中的关键缺陷:小错误在现实实践中引发累积错误,降低可靠性。
Recap能够使研究人员通过两种方式从“质量较差”的经验数据中获取良好的训练信号:
1、纠正式指导(coaching with corrections)
由专家展示机器人如何修复错误或做得更好,从而提供修正。
想要让纠正式指导真正有用,专家远程操控者需要提供的是:在真实世界里,机器人实际犯错之后,怎样从这些错误中恢复的纠正示范。在实践中,这意味着运行当前最好的策略,当机器人犯错时,用人工远程操控接管它。
但是,仅仅依靠纠正式指导是有限的:这类监督的质量受制于人类是否能及时判断应当介入以及是否能提供高质量的纠正。对于那些特别明显或严重的错误,这种方式是有效的。
不过,就像运动员如果不自己反复练习,是不可能真正掌握一项运动一样,研究人员需要一种办法,让策略可以通过通过练习和强化继续学习和完善其行为的微小细节。
2、强化学习(reinforcement learning)
机器人依据整个任务过程的最终结果,自行判断哪些行为更好或更差,并通过迭代学习强化好的行为、避免不好的行为。
通过任务结果来进行强化学习的核心难题是信用分配(credit assignment):也就是弄清楚机器人在整个过程中做的哪些动作导致了好的结果,而哪些动作导致了坏的结果。
比如,如果机器人用错误的方式拿起意式咖啡机的手柄,那之后它在把手柄插回机器里时可能就会遇到困难。真正的错误并不在“插入”这个动作本身,而是在更早之前的抓取动作。
▲通过模仿学习训练的基础模型,在将手柄插入意式咖啡机时会遇到困难。
一个正确的信用分配方法应当能把这次失败归因到那次抓取上,即使失败是在后面才表现出来的。
Recap 通过训练一个价值函数来应对这样的信用分配难题,价值函数是一个模型,它能够预测特定情境相对于其他情境有多好。
举个例子,在国际象棋这类游戏中,智能体只会在赢棋时获得奖励,那么价值函数可以根据当前棋局来预测智能体获胜的概率。
如果研究人员能从机器人的经验中学到这样的价值函数,就可以通过价值函数的变化来判断一个动作是好是坏:那些让价值函数变大的动作,就像让棋局更接近胜利的落子,是应该被鼓励的好动作;而那些让价值函数变小的动作,则应该被抑制。
二、吞吐量和成功率较基础模型翻倍,任务成功率超90%
PI使用Recap来训练π*(0.6)模型,使其能够执行多项真实世界应用。π*(0.6)是基于π(0.6)模型训练而来的,而π(0.6)是早期π(0.5)模型的改进版本。
![]()
研究人员测试了三个应用场景:制作浓缩咖啡饮品、折叠各种衣物以及组装包装箱,这每一项任务都包含许多挑战:
制作咖啡流程长,要求机器人能够倾倒液体、把握好咖啡制作时间、制作完成后清理机器等。
叠衣物,机器人需要能够处理高度的多样性,对不同衣物采用不同的折叠方法。
组装包装箱,机器人需在保持箱体结构的同时折叠箱盖,还要应对箱子粘连等特殊情况。
![]()
Recap的第一阶段,是用离线强化学习(offline RL)对π*(0.6)模型进行预训练,这一点与基础的 π(0.6)和π(0.5)用纯监督学习训练的方式不同。在此基础上,研究人员再用示范数据对π*(0.6)进行按任务的微调,接着再用在机器人上采集到的额外数据进行强化学习训练:其中既包括专家提供的纠正,用来修复大的错误,也包括基于奖励信号的反馈,让模型能从自主经验中学习提升。
研究人员对比了几种模型的表现:基础π(0.6)模型(通过监督学习训练)、基础π*(0.6)模型(通过离线 RL训练,即Recap的第一阶段)、经过演示数据微调后的π*(0.6)模型,以及最终经过机器上经验微调后的 π*(0.6)模型。
从最终结果来看,对于像做咖啡这样的颇具挑战性的任务,在加入机器人的真实执行经验后,吞吐量和成功率都提升了超过两倍,均实现了超过90%的成功率。
![]()
结语:从经验中学习,或将成为高性能模型的关键一部分
目前,机器人基础模型主要使用的是由人工采集的示范数据(例如远程操控)。这种方式让训练流程变得简单、直接,但也带来了一个非常严峻的障碍:数据采集需要大量人工投入;模型的速度和鲁棒性受限于人类水平;而且机器人本身不会因为积累经验而逐渐变得更强。
而像Recap这样的方法,理论上可以通过直接从机器人自身的经验中学习,从而解决这些限制。
随着机器人在真实世界中的部署越来越广泛,来自经验的学习有可能会是一个非常重要的训练数据来源,并成为实现高性能表现的关键组成部分。
就像人类是通过“讲解+指导+练习”的组合方式来学习一样,机器人未来也会从许多不同的数据源中学习。不过,这些数据源会承担不同的角色:专家示范,用来定义新的行为;纠正式指导,用来打磨和优化策略;而自主经验——很可能是规模最大的数据来源——则用来把这些行为打磨到极致,甚至有望最终达到超越人类的表现。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.