穹彻智能与卢策吾团队携RISE、CAGE 、MBA技术突破可泛化智能操作|动作|点云|鲁棒性|人形机器人

分享至

机器人操作技术正面临范式变革的关键转折。传统方法受限于场景固化与数据依赖性，难以实现跨环境、跨本体的泛化能力突破。

近日，穹彻智能携手上交大卢策吾团队联合提出RISE、CAGE与MBA三项前沿机器人操控技术，构建起从感知理解到动作生成的完整泛化闭环。这三项技术分别通过基于3D感知的高效场景表征学习、利用基础模型进行鲁棒的视觉表征提取、使用以物体为中心的方式进行动作推理和生成，使机器人拥有在未知复杂环境下完成各种任务的能力。它们不仅突破了传统机器人操作系统的泛化瓶颈，更标志着可迁移智能操作系统从理论构想迈向工程实践的新阶段。

那么，这三项前沿技术是如何实现机器人操作技术的重大突破的呢？其具体研究内容又是如何？

▍三项技术相辅相成，确保复杂环境高效执行任务

据机器人大讲堂了解，RISE策略侧重于空间泛化，利用3D感知增强机器人对空间信息的理解，从而适应不同物体位置、工作空间和相机视角的变化。RISE策略采用稀疏3D编码器处理3D点云输入，直接对三维场景进行感知，能够高效提取关键空间特征，减少对特定摄像机角度的依赖。

通过提取具有良好泛化能力的空间特征，RISE使机器人能够在不同环境中保持稳定操作，从而在应对各种任务（如抓取-放置任务、长序列任务等）时展现出卓越的性能和较强的泛化能力。其结合了基于稀疏3D编码器的场景理解和基于扩散模型的动作生成，能够从单一视图的点云数据中预测连续动作，实现高效的动作生成。RISE强大的3D感知能力使机器人能够精准感知物体的位置信息和姿态，从而生成精确的操作动作。特别值得一提的是，RISE对机器人工作空间内物体的变化具有良好的适应能力，能够在各种位置条件下高效完成任务。例如，在“倒球”任务中RISE,能够准确感知操作环境中的杯子和碗，并生成完美的倒球动作。

CAGE策略侧重于视觉泛化，通过使用视觉基础模型和因果注意力机制，显著提升机器人在不同视觉环境下的泛化能力和适应性。具体而言，CAGE采用视觉基础模型，使机器人利用大规模预训练的视觉知识；引入LoRA技术，实现高效的机器人操控相关的视觉特征提取，减少训练参数量和计算量；采用因果感知器压缩和处理图像特征，提高信息利用率，为机器人在复杂环境中提供鲁棒的视觉支持。CAGE策略通过结合视觉基础模型（如DINOv2）和因果注意力机制，帮助机器人从少量的演示中学习到鲁棒的视觉表示，并能够适应不同的环境变化，甚至是机器人本体的变化。

CAGE的视觉编码器为机器人提供了强大的视觉特征，能够有效地提取任务相关的视觉信息，从而提升机器人操控策略的环境理解能力。在背景更换、物体变化、相机视角调整等条件下，甚至在更加复杂的变化（如同时发生以上三者、或在进行跨本体的零微调部署）下，传统的机器人操控策略通常会因为环境变化过大而难以预测有效的动作，而具有强大泛化能力的CAGE策略依然能够出色地完成任务。

MBA策略则侧重于行为泛化，将物体运动轨迹推理作为独立的集成模块，可在更广泛的物体交互场景中，利用扩散模型学习通用的物体运动规律，构建专注运动的世界模型。被集成的基线策略拥有一个天然的“大脑”判别丰富的物体轨迹，并基于此做出动作预测，从而提高机器人适应各种物体交互方式的能力，增强任务的通用性。MBA技术通过预测物体的未来姿态序列，指导动作生成，显著增强机器人的动作推理能力。它一方面能够通过位姿估计帮助机器人对物体操作实现更高精度的定位，另一方面对于通过物体运动的预测建模能辅助校准动作策略输出的轨迹，尤其是在运动方式变化频繁的任务上能够大幅提高策略的执行能力。MBA作为即插即用的模块可在多样的策略上轻易集成，并在广泛任务上对基线策略都有大幅增强。

这三项技术相辅相成，共同确保机器人在复杂环境中高效执行任务。目前三项前沿技术的相关论文和研究均已进行开源：

论文标题：RISE: 3D Perception Makes Real-World Robot Imitation Simple and Effective:

论文地址：https://arxiv.org/pdf/2404.12281

开源代码及数据集：https://github.com/rise-policy/rise

论文标题：CAGE: Causal Attention Enables Data-Efficient Generalizable Robotic Manipulation:

论文地址：https://arxiv.org/pdf/2410.14974

开源代码及数据集：https://github.com/cage-policy/cage

论文标题：Motion Before Action: Diffusing Object Motion as Manipulation Condition:

论文地址：https://arxiv.org/abs/2411.09658

主页链接：https://selen-suyue.github.io/MBApage/

代码链接：https://github.com/Selen-Suyue/MBA

这三篇论文具体又有哪些深入的研究内容和创新点呢？接下来机器人大讲堂将一一为您解读。

▍RISE：基于3D感知的高效的场景表征学习

RISE-图 1：RISE专注于现实世界中的机器人模仿学习，以带噪声的单视角部分点云为输入，输出为连续的机器人动作。尽管简单，实验展示了其在物体位置、新工作空间和新相机视角上的具有的有效泛化能力。

随着机器人技术的不断进步，精确操作在模仿学习领域的重要性日益凸显。基于图像的传统模仿学习方法通常依赖于固定摄像头进行物体位置建模，因此对摄像头视角的变化非常敏感。此外，基于3D点云的策略往往局限于预测关键帧，缺乏生成连续动作的能力，这在动态变化和密集接触的场景中构成了挑战。因此，如何有效利用3D感知来提升机器人在现实环境中的操作能力，逐渐成为研究的重点。

实现方法

RISE-图2：RISE架构概览。
RISE的输入是从现实世界捕获的含噪声的场景点云。使用稀疏卷积构建的3D编码器将点云压缩成token。在添加稀疏位置编码后，这些token输入到Transformer编码器中。使用读取token从Transformer解码器中查询动作特征。基于扩散模型的动作生成头通过动作特征生成连续机器人动作。

为了解决上述问题，研究团队提出了RISE，一个基于3D感知的端到端模仿学习基线。在训练过程中使用了50个现实世界任务的演示，即可得到一个简单有效的机器人操控策略，而且该策略在准确性和效率方面都具有显著优势。具体来说，RISE由以下三个部分构成：

1.稀疏3D编码器：受到AnyGrasp的启发，RISE采用了基于稀疏卷积的3D编码器，将点云压缩成tokens。这种设计不仅有效利用了传统卷积架构的优势，还避免了在稀疏3D空间中的大量冗余计算，提升了点云感知和处理效率。

2.带稀疏位置编码的Transformer：RISE使用3D稀疏位置编码来捕获不同点token在3D空间内的相对关系。将编码后的点特征，通过基于Transformer的编码器-解码器架构映射到动作特征空间。

3.基于扩散模型的动作生成头：动作特征通过扩散头解码成连续的动作轨迹。该解码器通过迭代去噪高斯噪声来预测动作，从而生成机器人的执行动作。

实验结果

团队设计了六项任务来评估RISE的任务完成效果、泛化能力和鲁棒性，包括抓取和放置任务（Collect Cups和Collect Pens）、6自由度任务（Pour Balls）、推至目标（Push Block和Push Ball）以及长程任务（Stack Blocks）。RISE在多项任务中表现出色：

——抓取和放置任务（如图3）——

RISE-图3：实验中各项任务的定义。在评估过程中，每项任务中各个物体的位置在机器人工作空间内随意放置。为了更直观地展示，图中仅展示了每项任务的3到5种评估设置。

RISE-图4：抓取和放置任务的实验结果。

Collect Cups：在物体数量少于3个时，RISE的完成率超过90%；即使在有4个或5个杯子的复杂环境中，完成率仍保持在65%以上。

Collect Pens：RISE在预测平移和规划旋转方面均超越了所有基线方法，完成率显著高于ACT、Diffusion Policy和Act3D。

——6自由度任务——

RISE-表1：6自由度任务倒球的实验结果。
“如果倒球成功”（If Poured）：表示在成功完成倒球动作的完成率。

Pour Balls：RISE在需要复杂旋转的倒球任务中表现出色，成功率达到80%，完成率为49.0%，显著高于ACT和Diffusion Policy。

——推至目标任务——

RISE-表2：推至目标任务“推方块”和“推球”的评估指标示意图（左）和实验结果（右）。

Push Block：RISE的成功率为55%，距离目标位置的平均距离为3.51厘米，略高于Diffusion Policy。

Push Ball：RISE的成功率为60%，距离目标位置的平均距离为4.89厘米，显著高于Diffusion Policy，展示了其对物体位置变化的快速适应能力。

——长程任务：——

RISE-表3：“堆叠积木”长程任务的实验结果（平均堆叠积木数）。

Stack Blocks：随着方块数量的增加，RISE的表现逐渐超越基线方法。在2个方块的情况下，RISE平均成功堆叠0.8个方块；在3个方块的情况下，平均成功堆叠1.5个方块；在具有挑战性的4个方块情况下，平均成功堆叠0.9个方块。

——3D感知的有效性——

RISE-表4：3D感知在“收集杯子”任务（5个杯子，共10次试验）中的有效性测试。2D版本策略以全局摄像头和手持摄像头的图像作为输入。* DP3方法无法通过较为复杂的演示数据学习到有效的机器人操作策略。

在Collect Cups任务中，RISE在5个杯子的情况下完成率达到66%，显著高于ACT和Diffusion Policy。这表明3D感知可显著提升机器人操作策略。

——泛化能力测试——

RISE-表5：“收集笔”任务（1支笔，共10次试验）的泛化测试设置与实验结果。

L1、L2级别：在物体颜色、光照条件等单因素变化下，RISE的平均完成率保持在80%以上。

L3级别：在工作空间高度变化的情况下，RISE的完成率下降10%，仍显著高于基线方法。

L4级别：在最具挑战性的摄像头视角变化的情况下，虽然完成率有显著下降，相比其他基线方法，RISE仍表现出较大优势。

应用前景

RISE的实验结果表明，3D感知在现实世界机器人操作中的应用潜力巨大。其高效的动作预测能力和对环境变化的适应能力，使其在复杂的操作任务中具备广泛的应用前景。未来，RISE可以被应用于更复杂的机器人操作场景，如家庭服务机器人、工业自动化以及医疗辅助等领域。同时，RISE的技术策略也为其他领域的智能系统提供了新的思路，推动了3D感知与机器人学习的进一步融合。

▍CAGE:利用基础模型进行鲁棒的视觉表征提取

机器人操作的泛化能力一直是具身智能研究的重点课题，尤其是在面对新环境时，如何利用有限的演示数据实现有效操作是当前的研究热点。尽管在某些领域（如通用抓取）已取得一定进展，但在更广泛的机器人操作任务中，仍面临着巨大挑战。近期的模仿学习研究表明，基于行为克隆的机器人操作策略在从演示中学习方面具有潜力。然而，行为克隆在面对分布外的情景时往往表现不佳，导致累积误差和任务失败，这进一步突显了机器人操作策略中泛化能力的重要性。

CAGE-图1：CAGE是一种数据高效且具有泛化能力的机器人操控策略。通过约50次单一场景的演示，CAGE能够在从未见过的测试环境中有效完成任务，并适应不同程度的分布变化，包括训练环境（L0）、相似环境（L1）和全新环境（L2）。实验表明，CAGE在L1和L2环境中展现出良好的通用性，并显著优于现有的研究方法。

实现方法

CAGE-图2：
(a) CAGE概览。CAGE由三个部分组成：
观察图像输入DINOv2图像编码器（LoRA微调）以获取观察token。
连接后的观察token通过Causal Observation Perceiver进行压缩，学习到的token与时间戳嵌入一起作为噪声预测的条件。
Attn-UNet以带有本体感知的噪声动作序列作为输入，输出噪声估计，遵循标准扩散流程。
(b)对token进行平均压缩会丢失关键的场景级位置信息。
(c)直接作为下游输入的方式低效，因token数量过多。
(d)团队提出的Causal Observation Perceiver用于token压缩。

CAGE是一种新型的机器人操作策略，通过其创新的因果注意力机制，不仅提高了数据效率，还显著增强了机器人操作的泛化能力。CAGE利用视觉基础模型DINOv2的强大特征提取能力，并结合LoRA微调以实现对环境的鲁棒理解。策略还采用因果感知器进行有效的token压缩，并使用基于扩散的动作预测头，以增强任务特定的细粒度条件控制。CAGE仅需约50个来自单个训练环境的演示，就能在不同的视觉变化中实现鲁棒的泛化，包括物体、背景和视角的变化。

实验结果

研究人员设计了三项任务来评估CAGE的泛化能力：

A.搬运（Transport）：机器人需要定位工作空间左侧的物体（到达），抓取物体（抓取），并将其放到右侧（放置）。

B.倒出（Dumping）：机器人需要水平抓取杯子（抓取），将其移动到碗上方，倾斜杯子直到所有球都倒入碗中（倒出），然后将杯子放入目标区域（放置）。

C.切割（Chopping）：机器人需要抓取菜刀（抓取），用菜刀将砧板上的物体切成若干块（切割），然后将菜刀安全放置在泡沫垫上（放置）。

泛化变化包括不同的背景、物体和摄像头视角

——同环境测试（L0）——

，时长00:19

在训练环境中，运用CAGE策略的机器人操作演示视频

CAGE-表1-L0评估结果：L0评估在训练过程同环境中进行，CAGE在所有任务中均优于DP，并在大多数任务中与RISE表现相当。

在与训练环境相同的L0测试中，CAGE在所有任务中均超越了DP，并在大多数任务中与RISE相当。具体来说，CAGE在Transport任务中的成功率达到了100%，在Dumping任务中的成功率为93%，在Chopping任务中的成功率为94%。

——相似环境（L1）——

CAGE-表2-L1评估结果：L1评估在相似环境中进行，其中包括背景、物体或摄像头视角的一种变化。本表说明了“搬运”任务的总体成功率。CAGE在所有任务的成功率和完成率上均超越RISE。

在L1测试中，CAGE在相似环境中展现出有效的泛化能力。例如，在运输任务中，即使目标物体从方块变为足球，CAGE的平均成功率达到67%。在倾倒任务中，CAGE在不同背景和物体下的成功率分别为80%和73%。

——全新环境（L2）——

CAGE-表3-L2评估结果：L2评估在全新的环境中进行，包括不同的背景、摄像头视角和未见过的物体，CAGE在所有任务中均显著优于所有基线方法。

泛化能力测试

在L2测试中，CAGE在未见过的环境中表现出强大的泛化能力。在背景、物体和摄像头视角同时变化的情况下，CAGE仍能有效完成任务。CAGE在Transport任务中的成功率为34%，在Dumping任务中的成功率为57%，在Chopping任务中的成功率为23%。

跨平台验证

除了在视觉泛化能力上的突破，研究团队在不同硬件配置的新平台上对CAGE进行了测试，重点关注了运输（Transport）和倾倒（Dumping）两项任务。尽管面临全新的工作空间和操作界面，CAGE依然展现出了强大的适应能力。

CAGE-表4：相似环境下的跨平台实验结果：
“相似”指的是具有绿色背景、相同物体和接近的摄像头视角的环境设置。由于平台不同，背景和摄像头与训练环境不完全相同。表中新硬件用黄色高亮显示。

CAGE-表5：新环境下的跨平台评估结果：
进一步按照相同协议更换了背景和目标物体。新硬件用黄色高亮显示。

RH20T预训练

除了自行收集的高质量数据集外，团队还在RH20T的相同运输任务上对CAGE进行了训练，以评估预训练后的开箱即用泛化能力。该数据集包含164个演示，由14名操作员在4种不同硬件配置下收集，并且包含了多样化的干扰因素以及物体尺寸、背景和摄像头视角的丰富变化。为了评估，团队设计了一个蓝色长方体作为目标，其在纹理和形状上均与训练中使用的方块不同。

CAGE-表6：开箱评估结果。
左侧的图示展示了在RH20T上预训练的CAGE的开箱环境。请注意，物体、背景和摄像头视角在训练数据集中均未出现。

如表6所示，团队观察到，尽管基线方法无法完成该任务，但CAGE能够开箱即用地运行，并且在性能上与使用半域内高质量数据集训练的结果相当（仅摄像头视角相同）。这证明了CAGE方法可以扩展到大型且多样化的数据集，并带来相应的性能提升。

应用前景

CAGE策略凭借其出色的数据效率和强大的泛化能力，为机器人操作领域提供了高效且灵活的解决方案。具体而言，CAGE仅需50次演示即可完成训练，显著降低了数据收集成本，使机器人学习新任务更加高效和经济。其零样本迁移能力，使得CAGE无需在新环境中进行微调，即可应对全新场景，极大地拓展了应用范围。此外，CAGE支持RGB视觉输入，摆脱了对深度传感器的依赖，实现了多模态兼容，进一步降低了硬件成本，提高了系统的灵活性和适应性。这些突破性特性，使得CAGE策略在物流分拣、家庭服务、危险环境作业等多个领域具有广泛的应用前景。

▍Motion Before Action:以物体为中心进行动作推理和生成

在机器人操作任务中，从观察中推断物体运动的特征表示对于提升机器人操作性能至关重要。人类正是通过观察环境中的物体运动，建立物体运动的概念知识，进而将这些知识潜移默化的用于伸手、抓取、避障等精细或灵活的动作。

然而，大多数现有的机器人策略仍然高度依赖观察特征，采用特征编码器直接映射观测到的场景至动作，而非主动推理物体的运动模式。这种方法容易过拟合训练数据，对环境细节过度依赖，导致在遇到现实世界中物体姿态的剧烈变化时，泛化能力受限，操作性能下降。

为解决上述挑战，穹彻智能携手上交大卢策吾团队联合提出了基于未来物体运动推断的动作预测策略，赋予机器人类似人类的推理能力：从观察中推测物体的未来运动趋势；在物体运动预测的引导下，预测并执行最优动作。这种方法不仅增强了机器人对动态环境的适应能力，还能有效提升操作的泛化性和稳健性，使其更接近人类智能的运动规划方式。

实现方案

MBA操作策略采用级联扩散模型进行物体运动预测与机器人动作生成，显著提升操作精准度与稳定性，尤其在软体物体操控、精准抓取等复杂任务中表现优异。相比传统策略仅依赖观察特征，MBA通过推测物体未来运动优化机器人操作，使其更具泛化能力。作为即插即用的模块化组件，MBA可灵活集成至任何带有扩散动作头的机器人操作策略，提升智能化决策与执行能力。

MBA-图1. MBA概览：
MBA以当前观测作为输入，形式为来自不同视角的3D点云或RGB图像。通过去噪扩散，从物体策略中采样物体姿态序列作为动作，并成为框架输出的一部分。环境观测和物体姿态动作的条件下，MBA通过去噪扩散从机器人策略中采样可执行的机器人动作。这些动作在工作空间内执行，以更新环境状态和观测信息。

具体来说，MBA通过以下步骤实现：

1.物体运动预测（第一阶段扩散模型）

○输入：策略编码的观察特征作为条件输入。

○输出：预测物体未来的姿态序列（9D向量，包括3D平移6D旋转）。

○作用：为后续动作生成提供更精确的运动信息，引导动作策略执行。

2.机器人动作生成（第二阶段扩散模型）

○输入物体未来的姿态序列初始观察特征结合，作为联合条件输入。

○输出：生成机器人执行所需的动作序列（10D向量，包括3D平移、6D旋转、1D夹爪宽度）。

○作用：在物体运动预测的指导下，预测最优的机器人操作动作，提升任务执行的精度与稳定性。

3.执行流程（右侧图示）

○观察输入→预测物体运动（第一阶段扩散模型）。

○结合物体运动信息→预测机器人动作（第二阶段扩散模型）。

○执行生成的动作，循环迭代，直到任务完成

实验结果

——仿真实验——

在仿真实验中，团队重点探讨以下两个核心问题：1.MBA能否通过预测物体运动，为机器人动作生成提供更有效的条件，从而提升操作策略的性能？2. MBA的类人推理能力是否能提高策略学习的效率？

团队在三个仿真基准测试环境中评估MBA的性能，共涵盖57个任务。实验旨在验证MBA是否能全面提升扩散策略（Diffusion Policy）的表现，因此团队选择Diffusion Policy（DP）3D Diffusion Policy（DP3）作为2D和3D任务的代表性基线，并将MBA模块集成到这些基线中进行对比测试。

为确保实验公平性，所有方法在训练阶段使用相同数量的专家演示和训练步数；在执行阶段，观察与推理步数也保持一致。

MBA-表1：在57个模拟任务中，集成MBA的策略与基线方法在3个随机种子下的平均成功率及标准差对比。

实验结果如表1所示，集成MBA的策略在大多数基准测试中展现出更稳定且优越的性能。相比DP，MBA的平均成功率提升14.2%；相比DP3，MBA的平均成功率提升6.2%；在所有基准测试任务中，执行标准差普遍降低，进一步验证了MBA的鲁棒性。

在高难度任务表现中，Adroit环境中：MBA将平均成功率由68.3%提升至79.7%；DexArt环境中：MBA的平均成功率由53.5%下降至52.3%；MetaWorld环境中：MBA在不同难度级别任务中均表现优异，尤其在高难度任务中，成功率提升尤为明显。

MBA-表2：集成MBA的策略与基线方法在多个典型模拟任务中的详细性能对比。

细粒度分析如表2所示，在需要精确接触狭小动作空间内进行操作的任务中，MBA通过准确物体姿态估计运动预测，显著增强了机器人操作策略的执行能力和鲁棒性。

MBA-图2：MBA与基线方法的成功率与单次实验中训练步数之间的关系。

学习效率提升如图2所示，集成MBA的策略在训练过程中展现出更快的收敛速度更高的学习效率。相比原始策略，MBA使得机器人在较早训练阶段即可达到任务成功率峰值，并在更高水平上保持更稳定表现。这一改进得益于物体姿态信息的引入，提供了更易学习、易编码的特征表示，从而提升策略学习的效率。

——真机实验——

MBA-图3：现实世界环境中机器人平台概览及三项任务示意图。

在真机实验中，团队旨在评估所提出的MBA模块在真实世界机器人操作策略的有效性。研究者使用Flexiv Rizon机器人臂和Robotiq 2F-85夹爪进行了4个任务实验，如图3所示：切粘土（使用工具的接触密集型任务）、将面包放入锅中（柔性物体操作）、打开抽屉（关节物体操作）和倒球（6自由度任务）。实验结果如下：

○切割粘土

接触密集型任务包括三个关键阶段：抓取刀子、切割粘土直至分离、将刀子放置于泡沫垫上，旨在评估MBA是否能通过准确预测物体姿态序列，优化策略执行。

团队在实验中随机调整切板、刀座和泡沫垫的位置与方向，重点考察它们的相对位置变化，以全面评估策略的鲁棒性。此外，每次测试都会改变粘土形状，以确保模型对真实应用场景的泛化能力。

团队定义了五个评估指标：抓取刀子的成功率；完成切割动作的成功率；切割粘土直至分离的成功率；将刀子放置在泡沫垫上的成功率；20次测试中抓取刀子的总重复尝试次数：

MBA-表3：“切割黏土”任务的实验结果

表3显示，集成MBA的RISE在各阶段均显著优于标准RISE，尤其在切割与分离任务中表现突出。这一优势源于MBA能预测并优化刀子切入粘土时的切割路径，这一过程涉及6自由度运动控制

MBA通过工具运动预测提供反馈，提升整体任务性能。然而，实验发现MBA仍存在重复抓取刀子的现象。团队推测，任务中的估计误差可能是主要原因，而刀片的薄度会放大了这些误差，使其更难忽略。

○将面包放入锅中

该任务是典型的抓取与放置任务，目标是从碗中取出面包并放入锅中。团队选择这一任务的核心原因在于，面包属于软体物体，其不同于刚体，会因夹爪的抓取压力和接触地面时的挤压发生显著形变，影响物体姿态，增加MBA在姿态预测方面的挑战。因此，该任务是评估MBA鲁棒性与泛化能力的理想测试场景。

实验中团队随机初始化锅和碗的位置，并调整碗中面包的方向。团队采用两项评估指标：面包成功放入锅中的平均成功率和抓取面包的总重复尝试次数

MBA-表4：“放面包入锅”任务的实验结果

表4显示，集成MBA的RISE在平均成功率上比标准RISE高出15%。MBA版本的RISE大多数情况下可一次性成功抓取面包，而标准RISE通常需要多次尝试。结果表明，MBA能有效预测软体物体的姿态变化，能够适应更丰富的物体旋转和平移偏差，从而实现更精准的物体定位和抓取。

○打开抽屉

该任务是关节化物体的操控任务，机器人需先精确抓取抽屉把手，再水平拉开。其核心挑战在于，把手与抽屉表面之间的间隙极小，即使轻微的位置误差也可能导致抓取失败拉动过程中夹爪失去接触。机器人需要准确估计把手的姿态序列，以确保平稳且高精度的操作执行。由于精细操作易受场景设置影响，特别是低高度操作时的点云遮挡问题，团队采取以下措施优化测试：为减少随机性影响，测试次数由20次增加至40次。测试点涵盖工作空间的内圈和外圈，每个区域进行20次测试。确保策略能应对初始抽屉位置导致的遮挡问题，实现全面的鲁棒性评估。试验均以平均成功率进行对比分析。

MBA-表5：“打开抽屉”任务的实验结果

表5显示，集成MBA的RISE任务的两个阶段均优于基线RISE，与模拟实验的发现一致。MBA通过准确预测把手姿态序列，减少抓取误差，提高成功率。在需要高精度执行的任务中，MBA显著增强了基线策略的稳定性和鲁棒性

○倒出小球

该任务为6自由度操控任务，其目标是抬起装有10个球的杯子并将其倒入碗中。该任务的难点主要来自两个方面：杯子在不同高度的宽度不同，夹爪需学习精确的视觉到运动控制策略，以便在合适高度抓取杯子。若夹爪过宽，将无法夹紧杯子，导致其掉落；若夹爪过窄，则会将杯子击倒。倒球过程中，若平移与旋转控制不当，或者夹爪力量调整不当，杯子可能旋转或掉落，导致任务失败。

实验中，团队随机化物体位置，并进行了20次试验，定义了三个评估指标将球倒入碗中的平均成功率；所有试验中倒入碗中的总球数；拿起杯子的平均成功率。

MBA-表6：“倒球”任务的实验结果

表6显示，MBA成功率上比基线高出超过15%。在相同的拿取杯子条件下，MBA还能以更高的精度倒球。MBA能准确捕捉物体姿态变化与相应动作的关系使得原子动作的实施更连贯，从而在复杂操作场景中表现优异。

应用前景

MBA模块作为一种新型的机器人操作策略增强组件，具有广泛的应用前景。它可以灵活地集成到现有的机器人操作策略中，显著提升策略在各种操作任务中的性能。未来的研究方向包括：

○集成到其他策略中：将MBA模块的集成对象从扩散载体策略发展为更广泛的生成式策略直至拓展到所有模仿学习策略中，以进一步提升策略的通用性和适应性。

○利用多样化的演示数据：利用人类演示或网络视频等多样化的物体运动演示数据进行监督和学习，使MBA学习更广泛的真实世界运动表征，成为专注运动建模的具身大脑，以增强策略的泛化能力。

○长程、多阶段任务：探索MBA模块在长视界、多阶段任务中的性能，以实现更复杂的操作任务。

○大规模策略：将MBA模块扩展到跨多数据集、多任务设置的通用大规模策略，以实现更广泛的应用。

▍未来展望

在机器人操控技术领域，RISE、CAGE与MBA三项前沿技术正通过不同维度的创新形成协同效应，有效提升了机器人在复杂环境下的泛化能力，使其能够高效执行多样化任务。作为贯穿场景表征理解与动作生成的系统级创新，这类技术组合为机器人操作领域突破泛化能力瓶颈提供了重要支撑，展现出推动行业实质性发展的潜力。

随着技术融合的持续深化，机器人泛化能力的发展路径正逐渐明晰。未来，跨环境、跨本体的适应能力有望借助三大技术的协同优化实现显著提升。这三大技术的协同优化将增强机器人在多应用场景下的泛化能力，使其能够更好地适应不同场景的需求。

在工业制造领域，机器人通过自主适应不同的产线与工件，将大幅提高柔性制造能力，从而更灵活地满足多种生产需求，成为柔性生产的关键环节；在医疗领域，随着机器人泛化能力的提升，其能够更精准地执行多种复杂手术操作，进而提高医疗的安全性与效率；在家庭服务场景中，机器人通过灵活应对多样化的家居环境，实现了自主交互与精准操控，这将推动机器人更深入地融入日常生活。

未来，在穹彻智能、上海交通大学等众多企业和高校对技术研究的持续深耕细作之下，行业发展无疑将获得强大助力。技术演进与应用场景的相互赋能、彼此促进，必将为我们开启机器人泛化能力发展的全新阶段！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.