GigaAI与中科院、清华联合推出VLA-R1大模型，成功率达75%|轨迹|算法|推理|机器人|深度思考模型

GigaAI与中科院、清华联合推出VLA-R1大模型，成功率达75%

分享至

在具身人工智能领域，视觉-语言-动作（VLA）模型扮演着核心角色。它通过统一感知、语言理解与动作生成三大能力，实现跨任务、跨场景的泛化，为机器人与真实环境交互提供关键技术支撑。

近年来，VLA领域涌现出诸多代表性成果：VoxPoser凭借视觉语言模型生成3D值图，实现零样本轨迹规划；ManipLVM-R1与RoboBrain则整合可供性感知与姿态估计，提升机器人对“物体可执行何种动作”的判断能力。这些模型通常先通过互联网规模的图像-文本预训练学习跨模态语义，再借助多任务操作数据绑定动作空间，从而具备迁移到未知对象、组合新命令的能力，泛化性能远超传统模块化管道或固定策略模型。

然而，现有的VLA模型存在两大挑战。首先，它们通常缺乏逐步推理：模型倾向于直接发出最终动作，而没有对可供性约束、几何关系或容器选择进行显式推理。这种局限性导致在颜色相似、重复实例或多个候选容器的情况下出现指令消歧失败。其次，训练后很少对推理进行系统性的强化。当前方法依赖于监督式微调（SFT），很少针对推理质量和执行效率进行奖励优化。即使使用强化学习（RL），奖励设计通常也是单目标的，难以同时优化区域对齐和轨迹一致性，从而降低了模型在分布外数据和真实世界场景下的性能。

▍VLA-R1：为机器人注入“思维链”

为了解决这些挑战，来自GigaAI、CASIA和清华大学研究团队最新提出的VLA-R1：一个推理增强型的VLA模型。它的核心框架是：先给定输入图像和自然语言指令，VLA-R1通过视觉-语言骨干网络对多模态信息进行编码，然后通过动作解码器生成底层控制信号。VLA-R1通过两大创新，系统性弥合了推理与执行之间的鸿沟。

高质量的“思维教科书”，VLA-CoT-13K数据集

要想学会推理，首先要有一个好的数据集。以往的数据集规模虽大，但大多只标注了最终的动作或目标，缺乏详细的推理步骤解释。

为此，研究团队开发了“VLA-CoT数据引擎”，生成了一个高质量的数据集VLA-CoT-13K。这个数据集包含了1.3万条标注数据，其独特之处在于，它为每一个任务都提供了清晰的“思维链”。这个思维链一步步地展示了模型应该如何分析场景、理解指令、识别相关物体及其属性、判断空间关系，最后才得出行动方案。更重要的是，这些推理步骤与最终的可供性标注（如边界框）和轨迹标注（如路径点序列）是严格对齐的。

CoT数据引擎

通过在这数据集上进行监督式微调，VLA-R1在初始阶段就学会了在行动之前先进行逻辑推理，为后续的强化学习打下了坚实的基础。

基于可验证奖励的强化学习

仅有基础理论知识还不够，还需要高强度的强化学习来优化推理和执行能力。VLA-R1在监督学习之后，引入了一种名为“基于可验证奖励的强化学习”的后训练策略，并采用“组相对策略优化”算法来提升训练效率。

VLA-R1的整体架构

这套策略的精髓在于设计了三个可验证的奖励信号，如同三位严苛的教练，从不同角度指导模型进步：

区域对齐奖励（GIoU奖励）：其专注于评估模型预测的操作区域（比如抓取框）是否与真实的最佳区域精准重叠。它使用一种名为广义交并比的先进指标，即使预测框与真实框没有完全重合，也能提供有意义的梯度反馈，加速模型学习如何准确定位。

轨迹一致性奖励（Fréchet轨迹奖励）：负责评判模型生成的动作轨迹是否合理、流畅。它不仅仅看路径点之间的欧氏距离，还综合考虑轨迹的整体形状、运动方向的角度变化以及各段路径的长度比例。这确保了机器人产生的轨迹不仅终点正确，而且整个运动过程也自然、高效。

输出格式奖励：确保模型的输出结构清晰、符合规范。模型必须严格按照要求，先输出标签内的推理过程，再输出...标签内的具体动作。这强制模型形成了先思考、后行动的良好输出习惯，增强了可解释性。

通过这三位“教练”的协同训练，VLA-R1的推理变得更加鲁棒，动作执行也更加精准。

▍卓越的性能：从数字世界到物理现实

经过精心设计的训练流程之后，VLA-R1的表现究竟如何？研究团队在域内、域外、仿真和真实机器人平台上进行了全面评估。

基准测试成绩斐然：在域内数据测试中，VLA-R1在可供性感知任务上达到了36.51的IoU（交并比），比之前最强的基线模型提升了17.78%；在轨迹预测任务上，其综合误差比基线降低了17.25%。更令人印象深刻的是，在分布不同的领域外数据上，VLA-R1同样取得了领先的性能，证明了其强大的泛化能力。

域内和域外性能比较

仿真环境中的稳健表现：在模拟的桌面环境中，研究人员随机变化物体的类别、颜色、位置以及桌面背景，以测试模型的稳健性。VLA-R1在两种不同机器人模型（Piper和UR5）上的测试表明，它在可供性感知任务上平均成功率达到55%，在轨迹执行任务上更是高达70%，远超对比模型。

真实场景下的评估可视化

真实世界中的成功应用：最终考验在真实机器人平台上进行。研究设计了四个具有挑战性的场景：在多种颜色的碗中抓取指定颜色；在重复的水果中识别并抓取指定目标；在存在视觉遮挡（如微波炉门）的情况下进行操作；在多种物体和干扰项并存的混合场景中完成任务。结果，VLA-R1在可供性感知上取得了62.5%的平均成功率，在轨迹执行上达到了75%的成功率，再次证明了其在实际应用中的有效性和鲁棒性。

▍未来与展望

尽管VLA-R1取得了显著的进展，但这项研究仍存在局限性，例如尚未在更复杂的机器人平台（如双臂机器人、四足机器狗）上进行验证。这类平台的动作空间更复杂，现有推理逻辑与奖励设计需进一步扩展。

未来研究将围绕两大方向展开：一是扩展机器人平台适配范围，针对双臂、移动机器人设计专属推理规则（如“双臂协作时的动作时序协调”）；二是优化奖励机制，引入 “物理约束奖励”（如 “抓取力控制”“碰撞避免”），进一步提升真实场景中的安全性与鲁棒性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.