真机RL！最强VLA模型π*0.6来了，机器人在办公室开起咖啡厅|rl|真实世界|空间智能

分享至

机器之心报道

编辑：泽南、冷猫

新方法大幅提升了具身智能的成功率、处理效率。

完全使用真实世界数据训练的具身智能，具备什么级别的能力？

本周，美国具身智能创业公司 Physical Intelligence（简称 PI 或 π）发布了旗下的最新机器人基础模型 π*0.6

PI 是一家总部位于旧金山的机器人与 AI 创业公司，其使命是将通用人工智能从数字世界带入物理世界：他们的首个机器人通用基础模型名为 π₀，让同一套软件控制多种物理平台执行各类任务。

在 2024 年，PI 获得超过 4 亿美元融资，估值突破 20 亿美元，成为具身智能赛道最受瞩目的玩家之一。

PI 的技术路线强调「视觉 - 语言 - 动作」（VLA）模型，通过大规模机器人感知与动作数据训练出具备泛化能力的策略，使机器人不再局限于预设动作，而能在未知环境中灵活执行。

机器学习与决策控制领域的知名专家、UC Berkeley 副教授、Physical Intelligence 联合创始人 Sergey Levine 表示，搭载这个模型的机器人已经可以在公司的办公室里为人们制作拿铁、美式和意式咖啡了。

Sergey Levine 表示，通过对 π*0.6 模型进行微调，可以使其在多种任务上表现出色，除了处理衣物之外的任务都可以达到 90% 成功率，而且任务处理的效率也大大提升了。

在 Physical Intelligence 的一篇博客中，工程师们详细介绍了 π*0.6 的机制与性能。

想一下，要组装一个纸箱需要哪些步骤？

作为人类，想要快速高效地完成这个任务，首先你应该会请人教你一些基础知识：哪些方法有效，常见的错误有哪些，以及正确的技巧是什么。其次，一位优秀的老师不仅会演示如何操作，还会指导你，纠正你自行操作时犯的错误。但是，仅仅依靠指导是不够的：最终熟能生巧，成为纸箱组装大师的第三步是反复练习，直到熟练掌握，成为一种本能反应。

过去一年，我们在机器人学习领域看到的许多令人瞩目的成果，都仅仅使用了第一步 —— 通过人提供的演示来训练机器人。仅凭这一步，让机器人成功完成一半的任务并不难，但要让它每次都成功却非常困难，更不用说在复杂的实际任务中达到人类水平的效率了。这是一个很大的问题，因为实际的机器人任务需要一个能够可靠且快速运行的系统。

基于这样的思考，Physical Intelligence 开发了一种名为Recap（基于优势条件策略的经验与纠错强化学习）的方法，它实现了所有三个步骤：通过演示训练机器人、通过纠错指导机器人，并使其能够从自主经验中改进。作者使用 Recap 改进了最新版本的视觉 - 语言 - 动作 (VLA) 模型 π(0.6)，使其能够稳健高效地执行复杂任务，例如制作意式浓缩咖啡、组装纸箱和折叠各种衣物。

这款经过强化学习训练后的模型称为 π*(0.6)，利用 Recap 在自主经验上训练 π*(0.6) 可以将一些最困难任务的吞吐量提高一倍以上，并将失败率降低 2 倍或更多。这使得 π*(0.6) 达到了实际应用所需的鲁棒性水平：它能够连续运行一整天制作意式浓缩咖啡，在新家中连续数小时不间断地折叠各种衣物，以及组装工厂实际包装所需的纸箱。

模仿是远远不够的

我们可能会想，为什么 VLA 仅依靠监督学习（即模仿）时难以持续取得成功，而监督学习在 LLMs 和其他机器学习系统中却效果很好。这个问题的原因实际上已经被很好地理解了，不过此前一直缺乏实用的解决方案。

当一个通过模仿训练的 VLA 控制机器人时，它会像任何模型一样犯一些小错误 —— 它可能把夹爪放在略微错误的位置、抓取失败，或撞倒一个物体。

由于机器人在真实的物理环境中进行交互，这些错误会产生与训练数据略有不同的情境，而在这些情境中，错误是会累积的。机器人更可能犯下另一个更大的错误，小错误是可以修复的，但累积错误会导致失败。

对于产生静态输出的 AI 系统（例如 LLMs）来说，这并不是一个大问题；但在模型作为一个持续与外部环境互动的控制策略时（例如现实世界中的机器人），这就是一个特定的问题。实际上，这意味着，虽然让 VLA 偶尔完成某项任务相对容易，但让它们可靠，稳定的实现成功却非常困难。

如果我们使用来自 VLA 自身行为的额外数据，本质上让它在真实世界中纠正它实际犯下的错误，就像人类可以通过练习在某项任务上不断提高一样，通过允许 VLA 反复练习，就可以解决累积错误的问题。

但对于这种类型的经验，能用什么作为真实标签？如果我们训练策略只是去复制它之前做过的事情，那我们只是教会它继续犯相同的错误。让模型能够从经验中学习的关键，是从糟糕的经验数据中提取出良好的训练信号。

纠正式指导与强化学习

Recap 使我们能够从「质量较差」的经验数据中获得良好的训练信号，途径包括两种：

纠正式指导（coaching with corrections）：由专家展示机器人如何修复错误或做得更好；
强化学习（reinforcement learning）：机器人依据整个任务过程的最终结果自行判断哪些行为更好或更差，并通过迭代学习强化好的行为、避免不好的行为。

纠正式指导要发挥作用，专家远程操作人员需要提供纠正信号，展示如何从机器人在真实世界中实际犯下的错误中恢复。

实践中，这意味着运行当前最强的策略，并在机器人出错时通过手动远程接管（teleoperation）控制。这种干预可以作为监督信号使用，但与用于训练原始策略的演示不同，该干预针对的正是策略实际将机器人带入的那些状态，从而解决错误累积的问题。

然而，仅依靠纠正式指导是有限的：这类监督的质量受制于人类是否能及时判断应当介入以及是否能提供高质量的纠正。对于明显或严重的错误，这种方式可以奏效，但若想获得最佳性能 —— 即快速、可靠且一致地完成任务 —— 机器人必须能够自主学习。

从任务结果中通过强化学习进行学习的核心挑战在于信用分配（credit assignment）：即理解机器人执行的哪些动作导致了好的结果，哪些导致了坏的结果。

如果机器人以错误的方式抓起意式咖啡机的手柄（portafilter），它在插入时可能会遇到困难。错误并不发生在插入阶段，而是在最初的抓取动作上。一个正确的信用分配方法应当将该失败归因于抓取错误，即使失败只是在之后的步骤中表现出来。

仅通过模仿学习训练的基础模型在将手柄插入意式咖啡机时会遇到困难。导致失败的错误可能发生在更早的阶段。

信用分配是强化学习中的一个关键挑战。Recap 通过训练一个价值函数来解决这一问题。

举例来说，在象棋这类游戏中，智能体只有在赢得比赛时才会获得奖励，那么价值函数就会根据当前棋局预测智能体获胜的概率。使价值函数上升的动作是应该被鼓励的好动作；而使价值函数下降的动作则应被抑制。

下图展示了价值函数在任务执行过程中所做的预测。

在一个回合中不同时间点的值函数预测。这个值函数预测完成任务的（负）步数。请注意，当机器人取得进展时预测会增加，而当进展很小时预测会保持平稳。

在训练好价值函数之后，我们需要利用它来得到一个更好的策略。实现这一点的方法有多种，但我们需要的是一种可扩展、并且能够与大型 VLA 模型结合使用的方法。

在 Recap 中，Physical Intelligence 将 VLA 在价值变化上调整：使用所有训练数据（包括好的和不好的动作），同时告诉 VLA 哪些动作是好是坏。由于模型在拥有大量数据时通常具有最佳的泛化能力，在训练中保留全部数据并仅仅将价值变化注释作为输入，是一个非常具有吸引力的选择。

在强化学习中，这种「价值变化」被称为优势（advantage）。在执行阶段，我们只需让这个按优势条件化的 VLA 去选择高优势的动作，从而得到一个比训练数据本身更优的策略。

面向真实世界任务

Physical Intelligence 使用 Recap 来训练 π*(0.6) 模型，使其能够执行多项真实世界应用。π*(0.6) 是基于 π(0.6) 模型训练得到的，而 π(0.6) 则是早期 π(0.5) 模型的改进版本。

它采用了稍大一些的骨干网络，并能够处理更加异质化的提示与条件信息，如下图所示。关于 π(0.6) 模型架构的更详细描述，请参阅模型卡。

https://website.pi-asset.com/pi06star/PI06_model_card.pdf

Physical Intelligence 研究了三个应用场景：制作意式咖啡饮品、折叠多种类型的衣物，以及组装包装用的纸盒。Recap 的第一阶段，是使用离线强化学习（offline RL）对 π*(0.6) 模型进行预训练，这与基础 π(0.6) 和 π(0.5) VLA 所采用的标准监督学习方法形成对比。在此基础上，再通过示范数据对 π*(0.6) 进行任务级微调，随后利用机器人在真实环境中收集的额外数据继续通过强化学习进行训练，其中包括专家提供的纠正（用于修复大的错误）以及来自奖励的反馈（用于根据自主经验进一步改进）。

下方的图表对比了不同阶段模型的性能：监督学习训练的基础 π(0.6) 模型；使用离线强化学习预训练的基础 π*(0.6) 模型（即 Recap 的第一阶段）；通过示范对每个任务微调后的 π*(0.6) 模型；以及结合机器人真实执行经验进行微调后的最终 π*(0.6) 模型。对每个任务，Physical Intelligence 测量了吞吐量（每小时成功完成任务的次数）以及成功率。

值得注意的是，对于一些最困难的任务（如制作意式咖啡），加入机器人真实执行经验后，吞吐量和成功率都提升了超过两倍

Recap 在所有任务中都显著提升了吞吐量，并且通常还能带来成功率的大幅提升。

从质量上看，最终的 π*(0.6) 模型在结合示范数据和机器人自身经验学习后，能够熟练掌握每个应用任务。下面的视频展示了这些任务的一些评估亮点。

π*(0.6) 在每项真实世界任务中的质性示例。π*(0.6) 能够应对多种条件，并从错误中恢复。

每一项任务都包含许多挑战，使得实现高吞吐量的自主执行变得困难。

箱子组装任务需要执行高度复杂的物理操作 —— 在保持箱体结构的同时折叠箱盖。此外，该任务需要反复执行并处理各种边缘情况，正如上方视频中所示：有时扁平的纸箱会粘在一起，导致机器人一次抓起多个箱子，此时它必须将多余的箱子放回去；有时在出现错误后还需要重新折叠箱子。

衣物折叠任务则需要处理高度的多样性，并在不同初始条件和不同衣物种类之间实现泛化。这非常困难，因为不仅不同的衣物需要不同的折叠策略，不同材质的布料也具有不同的动力学特性。

最后，意式咖啡制作任务需要处理一个跨度非常长的操作序列，新模型使用了类似于之前 π(0.5) 模型的高层语言策略。该任务还涉及倒液体、判断咖啡研磨机和意式咖啡机何时完成工作、以及在制作结束后用布巾清洁机器。

这些步骤对当前最先进的 VLA 模型来说都极具挑战性，而π*(0.6) 能够以超过 90% 的成功率完成这些任务

下一步？

目前，机器人基础模型主要依赖人为收集的示范数据（例如通过远程操作）。这种方式使训练过程简单直接，但也带来了一个严重的障碍：数据需要大量人工投入，模型的速度与可靠性受限于人类的操作水平，而机器人本身无法通过经验不断变得更好。像 Recap 这样的方法在原理上能够解决这些限制，因为它还能直接从机器人自身的经验中学习。

随着机器人在真实世界中的部署越来越广泛，从经验中学习可能会成为一种重要的数据来源，并成为实现高性能模型不可或缺的组成部分。

就像人类通过「指导 — 辅导 — 练习」的组合方式成长一样，机器人同样将从多种不同的数据来源中学习。但这些数据来源会承担不同的角色：专家示范用于定义新的行为，纠正式指导用于改进策略，而自主经验 —— 可能是规模最大的数据来源 —— 则用于打磨行为，使其最终有可能达到超越人类的表现。

https://www.pi.website/blog/pistar06#where-are-we-headed

文中视频链接：

https://mp.weixin.qq.com/s/EVxkL1yX41fEUv0dBzFYeg

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.