网易首页 > 网易号 > 正文 申请入驻

「不仅会想,还能准确去做」VLA-R1把「推理+行动」带进真实世界

0
分享至





在机器人与智能体领域,一个老大难问题是:当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时,它不仅要看懂环境,更要解释指令、规划路径 / 可操作区域,并把这些推理落实为准确的动作。目前,很多 VLA(Vision-Language-Action)模型仍倾向直接输出动作,缺乏对可供性(affordance)与轨迹(trajectory)几何关系的显式推理,一旦遇到颜色相近、目标重复或容器多选等场景,就容易出错。VLA-R1 的目标,不仅把 “会想” 这步补上,而且通过强化学习进一步加强执行动作的准确性,让机器人解释清楚再去准确执行

VLA-R1 出场:它是什么?



  • 论文标题:VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
  • 文章链接:https://arxiv.org/abs/2510.01623
  • 项目主页:https://gigaai-research.github.io/VLA-R1/

一句话概括:VLA-R1 是一个 “先推理、后执行” 的 VLA(视觉 - 语言 - 行动)基础模型。它把链式思维(CoT)监督可验证奖励的强化学习(RLVR,基于 GRPO)结合起来,同时优化 “推理质量” 和 “执行正确性”。简单说,就是让模型既能把思考过程讲明白,还能把动作做准。

关键创新点

1)两阶段训练:SFT + RL(基于 GRPO)



先用显式 CoT 监督做有教师的指令微调(SFT),再用可验证奖励做后训练强化(GRPO)。后者通过组内归一化优势与 KL 约束,稳定地把 “会想” 转化为 “会做”。推理输出采用固定结构: + …,从而保证可读、可查错。

2)三类 “可验证奖励”(RLVR)直击 “看准 + 走对 + 格式对”

  • 空间对齐奖励(GIoU):即使预测框与真值不相交也能得到有效梯度,也能提供有效梯度,显著加速区域对齐与学习稳定性;
  • 轨迹一致性奖励(引入角度及段长比值的 Fréchet 距离(ALHF)):综合位置、切向角度与段长尺度,惩罚 “轨迹形状不对,弯曲不合理,段长突变” 的情况;
  • 输出格式奖励:强制推理段与动作段结构化输出,减少 “答非所问”。



3)VLA-CoT 数据引擎与 VLA-CoT-13K 数据集

为让模型 “学会按步骤思考”,作者用Qwen2.5-VL-72B自动生成可供性与轨迹两类任务的结构化 CoT,并在提示中固定四步范式,最终得到13K条与视觉 / 动作严格对齐的 CoT 标注,用作 SFT 的高质量监督信号。





实验速览

VLA-R1 在四个层级进行了系统评测:域内(In-Domain)测试、域外(Out-of-Domain)测试、仿真平台、真实机器人实验。此外还做了有无 CoT,RL 的消融实验以证明方法的有效性。



基准集(In-Domain)

VLA-R1 的基准集来自团队自建的VLA-CoT-13K数据引擎,共含约 1.3 万条视觉 - 语言 - 行动样本,任务涵盖 “可供性识别(Affordance Detection)” 与 “轨迹规划(Trajectory Generation)” 两大类。场景以桌面和实验室为主,光照均匀、背景简洁,包含碗、杯、勺、笔、盒子、篮子等常见物体,每条数据都配有精确的区域标注、轨迹点坐标和配套的链式思维推理。

实验结果

  • 可供性 IoU,比强基线 ManipLVM-R1提升 17.78%
  • 轨迹平均误差(Avg),相对基线降 17.25%

域外集(Out-of-Domain)

为了检验模型的泛化与语义迁移能力,研究团队引入两个全新测试集:UMD DatasetVAIT Dataset。UMD 提供丰富的家庭物体及其功能标签(如 graspable、containable 等),而 VAIT 着重考察视觉场景与自然语言指令的对应关系。与基准集相比,域外数据在物体类别、背景风格、光照条件及语言结构上均存在显著差异,几乎不存在训练重叠。

实验结果

  • 可供性 IoU,在 UMD 数据集上仍然保持领先。
  • 轨迹平均误差(Avg),在 VAIT 子集上展现稳健泛化

真实机器人(4 个餐桌场景)

在 VLA-R1 的真实机器人实验中,作者共设计了四个桌面场景(S1–S4),每个场景都针对不同的环境复杂度与视觉干扰进行布置,用以验证模型在真实视觉条件下的稳健性与泛化性。S1 为彩色碗拾取与放置场景,主要测试模型在多种颜色相近物体下的目标区分与空间定位能力;S2 为水果拾取场景,物体外观相似且数量较多,用于考察模型在同类物体识别与实例辨析下的可供性推理;S3 为厨房复杂遮挡场景,实验台上布置微波炉等大型遮挡物,考查模型在部分可见与非均匀光照环境下的稳健推理;S4 为混合杂乱场景,包含多类别、不同属性的日常物体,模拟多目标混放与多容器选择的真实桌面环境。四个场景均采用相同的机械臂与相机系统,在随机物体排列与任务顺序下独立进行十次实验,以评估模型在真实干扰条件中的整体稳定性与任务一致性。





  • 可供性感知 SR:62.5%;轨迹执行 SR:75%。
  • 颜色相近、遮挡、目标扰动等干扰下,VLA-R1 仍能给出空间一致、接近目标的预测。

仿真(Piper / UR5,测试跨机器人平台通用性)

为测试跨平台通用性,VLA-R1 被部署到两种机械臂仿真环境:轻量级的 Piper 与工业级的 UR5。仿真任务涵盖多种随机物体与动作指令。





  • 可供性 SR:60% / 50%;轨迹 SR:80% / 60%,
  • 跨机器人维持较好成功率,显示出跨平台泛化潜力。

消融实验

为了测试 CoT,RL 的有效性,论文分别进行了直接输出轨迹,只用 CoT,以及 CoT+RL 后训练三种实验的对比



  • 只用 CoT(无 RL):IoU 从 23.74 → 28.37,轨迹误差也小幅下降;
  • CoT + RL:进一步把 IoU 拉到 36.51,轨迹各项显著改进,说明 “先学会想,再用奖励把想法炼成动作” 是有效路径。

Demo 展示

思考过程展示



真机平台





仿真平台



应用前景

家居拾放 / 收纳等日常操控:面向客厅 / 厨房 / 书桌等开放环境,VLA-R1 可在多物体、光照不均、纹理干扰与部分遮挡下稳定完成 “找 — 拿 — 放” 的闭环。它先用显式推理消解 “相似目标 / 相近颜色 / 多个容器可选” 等歧义,再输出可供性区域与可执行轨迹,最终由低层控制栈完成抓取与放置。典型场景包括:将勺子→碗、笔→白盒、香蕉→篮子的收纳,或在反光桌面、杂物堆叠的桌面上进行安全、可解释的物品整理。

仓拣 / 轻工装配:在料箱拣选、工位配盘、工装上料等流程中,VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元关系明确写在推理里(如 “为何选择该容器 / 该姿态 / 该路径”),再生成满足安全距离与路径顺滑度的轨迹,减少误抓与误放。它对重复件、套件、易混部件尤其有效:可在同批次零件中依据形状 / 位置 / 容器容量做出解释性选择;同时结构化输出便于与 MES/PLC/ 视觉检测系统对接,形成可追溯的产线闭环。

教学 / 评测平台:VLA-R1 的 < think>…+… 格式天然适合教学演示与自动化评分:教师 / 研究者能直接检查 “任务解析、场景理解、可供性定位、可行性校验、轨迹逻辑” 等中间步骤是否合理。配合标准化的 IoU/Fréchet / 成功率等指标,可将其用作课程与竞赛的基线模型,学生只需替换数据或模块,即可对比 “仅 SFT”“SFT+RL”“不同奖励 / 不同数据引擎” 的差异,快速定位问题与量化改进效果。

作者介绍

叶安根是中国科学院自动化研究所模式识别与智能系统方向的在读博士,研究方向聚焦于强化学习、机器人操作、具身智能。曾参与多项科研项目,致力于通过强化学习构建少样本、多任务的通用机器人系统。

张泽宇是 Richard Hartley 教授和 Ian Reid 教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域,专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿进展。

通讯作者朱政,极佳科技联合创始人、首席科学家,2019 年博士毕业于中国科学院自动化研究所;2019 年至 2021 年在清华大学自动化系从事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等顶级期刊和会议上发表论文 70 余篇,文章总引用 16000 余次 (Google Citations),连续 4 年入选全球前 2% 顶尖科学家榜单。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医生告诫:糖尿病初期不是消瘦,而是经常出现这4个症状,需警惕

医生告诫:糖尿病初期不是消瘦,而是经常出现这4个症状,需警惕

王二哥老搞笑
2026-02-08 18:33:58
伊朗装甲车街头碾压抗议者 加拿大强烈谴责

伊朗装甲车街头碾压抗议者 加拿大强烈谴责

桂系007
2026-02-06 07:01:11
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
全新奥迪A6L来了, 双激光雷达超帅,击中年轻人审美!

全新奥迪A6L来了, 双激光雷达超帅,击中年轻人审美!

米粒说车唯一呀
2026-02-08 16:32:38
“呆呆”继摇人按猪之后开直播送春联,近10万网友涌进直播间,当事人:谢谢大家包容,没有嫌弃我字写得丑

“呆呆”继摇人按猪之后开直播送春联,近10万网友涌进直播间,当事人:谢谢大家包容,没有嫌弃我字写得丑

极目新闻
2026-02-08 15:35:40
中方的资本,已经开始不受管控了,政府必须要提高警惕!

中方的资本,已经开始不受管控了,政府必须要提高警惕!

大静吖
2026-02-07 23:30:36
市委实习生刮擦豪车,遭车主暴打敲诈索赔十万,不料对方背景通天

市委实习生刮擦豪车,遭车主暴打敲诈索赔十万,不料对方背景通天

叶天辰故事会
2024-03-27 12:43:10
大S的4.6亿豪宅仍未过户,每月百万房贷待缴纳,具俊晔无权处理

大S的4.6亿豪宅仍未过户,每月百万房贷待缴纳,具俊晔无权处理

素素娱乐
2026-02-08 16:03:48
baby叶柯哭晕!黄晓明新恋情,豪门女友引热议,身家过亿的女企业家

baby叶柯哭晕!黄晓明新恋情,豪门女友引热议,身家过亿的女企业家

八星人
2026-02-07 14:24:03
郭晓东直播,粉丝说他老家房子太旧,郭晓东的话让人心里咯噔一下

郭晓东直播,粉丝说他老家房子太旧,郭晓东的话让人心里咯噔一下

乐悠悠娱乐
2026-02-07 10:28:42
黄俄,突然集体汉化,背后藏着一个被遗忘的真相

黄俄,突然集体汉化,背后藏着一个被遗忘的真相

正直小墨
2026-02-08 16:41:44
中央5台直播乒乓球时间表:2月8日CCTV5直播国乒决赛!亚洲杯赛程

中央5台直播乒乓球时间表:2月8日CCTV5直播国乒决赛!亚洲杯赛程

皮皮观天下
2026-02-08 14:33:11
6人受伤,又有留学生被袭!俄罗斯劳动力不足和越来越多的外国人

6人受伤,又有留学生被袭!俄罗斯劳动力不足和越来越多的外国人

鹰眼Defence
2026-02-08 17:48:06
清零”网贷记录的黄金期到了!这3类人必须立即行动

清零”网贷记录的黄金期到了!这3类人必须立即行动

冒泡泡的鱼儿
2026-02-08 18:46:00
胡兵54岁,身家过亿,独居,北京国贸720平豪宅,衣帽间像专卖店

胡兵54岁,身家过亿,独居,北京国贸720平豪宅,衣帽间像专卖店

百态人间
2026-02-05 15:34:25
RPG新作正面硬刚LGBT群体!狂揽30万愿望单

RPG新作正面硬刚LGBT群体!狂揽30万愿望单

游民星空
2026-02-08 16:37:11
拿中企当冤大头?巴总统喊话长和:需继续维护,新运营到了再交接

拿中企当冤大头?巴总统喊话长和:需继续维护,新运营到了再交接

未来展望
2026-02-08 06:45:34
个人股东分红,不用缴个税了!

个人股东分红,不用缴个税了!

审计之家
2026-01-28 19:58:41
十战十败!张本美和就是打不穿王曼昱,这堵“墙”到底强在哪?

十战十败!张本美和就是打不穿王曼昱,这堵“墙”到底强在哪?

曹老师评球
2026-02-08 14:29:51
属鸡人这辈子,守这三个人到老!

属鸡人这辈子,守这三个人到老!

阿天爱旅行
2026-02-08 18:48:50
2026-02-08 20:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

出口民调显示日本执政联盟将获得众议院过半议席

头条要闻

出口民调显示日本执政联盟将获得众议院过半议席

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

家居
健康
数码
艺术
公开课

家居要闻

现代轻奢 温馨治愈系

转头就晕的耳石症,能开车上班吗?

数码要闻

最快下周交付英伟达,消息称三星本月启动HBM4内存大规模生产

艺术要闻

何红舟油画作品选

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版