在具身人工智能领域,视觉-语言-动作(VLA)模型扮演着核心角色。它通过统一感知、语言理解与动作生成三大能力,实现跨任务、跨场景的泛化,为机器人与真实环境交互提供关键技术支撑。
近年来,VLA领域涌现出诸多代表性成果:VoxPoser凭借视觉语言模型生成3D值图,实现零样本轨迹规划;ManipLVM-R1与RoboBrain则整合可供性感知与姿态估计,提升机器人对“物体可执行何种动作”的判断能力。这些模型通常先通过互联网规模的图像-文本预训练学习跨模态语义,再借助多任务操作数据绑定动作空间,从而具备迁移到未知对象、组合新命令的能力,泛化性能远超传统模块化管道或固定策略模型。
然而,现有的VLA模型存在两大挑战。首先,它们通常缺乏逐步推理:模型倾向于直接发出最终动作,而没有对可供性约束、几何关系或容器选择进行显式推理。这种局限性导致在颜色相似、重复实例或多个候选容器的情况下出现指令消歧失败。其次,训练后很少对推理进行系统性的强化。当前方法依赖于监督式微调(SFT),很少针对推理质量和执行效率进行奖励优化。即使使用强化学习(RL),奖励设计通常也是单目标的,难以同时优化区域对齐和轨迹一致性,从而降低了模型在分布外数据和真实世界场景下的性能。
▍VLA-R1:为机器人注入“思维链”
为了解决这些挑战,来自GigaAI、CASIA和清华大学研究团队最新提出的VLA-R1:一个推理增强型的VLA模型。它的核心框架是:先给定输入图像和自然语言指令,VLA-R1通过视觉-语言骨干网络对多模态信息进行编码,然后通过动作解码器生成底层控制信号。VLA-R1通过两大创新,系统性弥合了推理与执行之间的鸿沟。
![]()
高质量的“思维教科书”,VLA-CoT-13K数据集
要想学会推理,首先要有一个好的数据集。以往的数据集规模虽大,但大多只标注了最终的动作或目标,缺乏详细的推理步骤解释。
为此,研究团队开发了“VLA-CoT数据引擎”,生成了一个高质量的数据集VLA-CoT-13K。这个数据集包含了1.3万条标注数据,其独特之处在于,它为每一个任务都提供了清晰的“思维链”。这个思维链一步步地展示了模型应该如何分析场景、理解指令、识别相关物体及其属性、判断空间关系,最后才得出行动方案。更重要的是,这些推理步骤与最终的可供性标注(如边界框)和轨迹标注(如路径点序列)是严格对齐的。
![]()
CoT数据引擎
通过在这数据集上进行监督式微调,VLA-R1在初始阶段就学会了在行动之前先进行逻辑推理,为后续的强化学习打下了坚实的基础。
![]()
基于可验证奖励的强化学习
仅有基础理论知识还不够,还需要高强度的强化学习来优化推理和执行能力。VLA-R1在监督学习之后,引入了一种名为“基于可验证奖励的强化学习”的后训练策略,并采用“组相对策略优化”算法来提升训练效率。
![]()
VLA-R1的整体架构
这套策略的精髓在于设计了三个可验证的奖励信号,如同三位严苛的教练,从不同角度指导模型进步:
区域对齐奖励(GIoU奖励):其专注于评估模型预测的操作区域(比如抓取框)是否与真实的最佳区域精准重叠。它使用一种名为广义交并比的先进指标,即使预测框与真实框没有完全重合,也能提供有意义的梯度反馈,加速模型学习如何准确定位。
轨迹一致性奖励(Fréchet轨迹奖励):负责评判模型生成的动作轨迹是否合理、流畅。它不仅仅看路径点之间的欧氏距离,还综合考虑轨迹的整体形状、运动方向的角度变化以及各段路径的长度比例。这确保了机器人产生的轨迹不仅终点正确,而且整个运动过程也自然、高效。
输出格式奖励:确保模型的输出结构清晰、符合规范。模型必须严格按照要求,先输出标签内的推理过程,再输出...标签内的具体动作。这强制模型形成了先思考、后行动的良好输出习惯,增强了可解释性。
通过这三位“教练”的协同训练,VLA-R1的推理变得更加鲁棒,动作执行也更加精准。
▍卓越的性能:从数字世界到物理现实
经过精心设计的训练流程之后,VLA-R1的表现究竟如何?研究团队在域内、域外、仿真和真实机器人平台上进行了全面评估。
基准测试成绩斐然:在域内数据测试中,VLA-R1在可供性感知任务上达到了36.51的IoU(交并比),比之前最强的基线模型提升了17.78%;在轨迹预测任务上,其综合误差比基线降低了17.25%。更令人印象深刻的是,在分布不同的领域外数据上,VLA-R1同样取得了领先的性能,证明了其强大的泛化能力。
![]()
域内和域外性能比较
仿真环境中的稳健表现:在模拟的桌面环境中,研究人员随机变化物体的类别、颜色、位置以及桌面背景,以测试模型的稳健性。VLA-R1在两种不同机器人模型(Piper和UR5)上的测试表明,它在可供性感知任务上平均成功率达到55%,在轨迹执行任务上更是高达70%,远超对比模型。
![]()
真实场景下的评估可视化
真实世界中的成功应用:最终考验在真实机器人平台上进行。研究设计了四个具有挑战性的场景:在多种颜色的碗中抓取指定颜色;在重复的水果中识别并抓取指定目标;在存在视觉遮挡(如微波炉门)的情况下进行操作;在多种物体和干扰项并存的混合场景中完成任务。结果,VLA-R1在可供性感知上取得了62.5%的平均成功率,在轨迹执行上达到了75%的成功率,再次证明了其在实际应用中的有效性和鲁棒性。
▍未来与展望
尽管VLA-R1取得了显著的进展,但这项研究仍存在局限性,例如尚未在更复杂的机器人平台(如双臂机器人、四足机器狗)上进行验证。这类平台的动作空间更复杂,现有推理逻辑与奖励设计需进一步扩展。
未来研究将围绕两大方向展开:一是扩展机器人平台适配范围,针对双臂、移动机器人设计专属推理规则(如“双臂协作时的动作时序协调”);二是优化奖励机制,引入 “物理约束奖励”(如 “抓取力控制”“碰撞避免”),进一步提升真实场景中的安全性与鲁棒性。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.