网易首页 > 网易号 > 正文 申请入驻

斯坦福、英伟达和伯克利提出具身Test-Time Scaling Law

0
分享至



本文的第一作者为斯坦福大学博士生 Jacky Kwok。共同通讯作者包括英伟达自动驾驶研究总监 Marco Pavone、斯坦福大学计算机系教授兼 DeepMind 科学家 Azalia Mirhoseini,以及 UC 伯克利教授 Ion Stoica。

Vision-Language-Action(VLA)模型在视觉运动控制中展现出了卓越能力,但如何在复杂的真实世界中保持鲁棒性仍是一个长期挑战。研究团队展示了一个关键发现:在推理阶段,结合「生成 - 验证」(generate-and-verify)范式从而增加计算量(test-time compute)可以显著提升 VLA 模型的泛化能力与可靠性。

与此同时,论文系统性地探讨了具身智能中的 Test-Time Scaling Law:随着推理阶段的采样与验证规模增长,VLA 模型在任务成功率和稳定性方面呈现出可预测的提升规律。



  • 论文标题:RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
  • 论文地址:https://arxiv.org/abs/2506.17811
  • 代码链接:robomonkey-vla.github.io
  • 作者邮箱:jackykwok@stanford.edu
  • 接收会议:CoRL 2025

具身 Test-Time Scaling Law



团队通过大量实验发现:当在推理阶段增加候选动作的生成数量时,VLA 的动作误差会持续下降。具体来说,无论是反复从机器人策略模型中采样动作、对部分采样动作施加高斯扰动,还是在离散动作空间中进行随机采样,这些方法在有「理想验证器」(oracle verifier)的前提下,都能显著优于单次推理的 OpenVLA 基线。

团队还揭示出一个幂律规律(power law):在多种主流 VLA 模型(包括 CogACT、Octo、OpenVLA 和 SpatialVLA)中,动作误差与高斯扰动采样数量之间呈现出稳定的幂律关系。这意味着,机器人控制问题不应仅仅被视为一个「生成」任务;相反,生成候选动作 + 验证筛选的范式,能在不改动训练模型的前提下显著提升性能。研究者希望这一发现能够推动动作验证器(scalable action verifiers)的发展,为通用机器人模型提供更稳健的落地路径。

核心问题

在提出具身 Test-Time Scaling Law 之后,研究团队进一步聚焦于三个关键问题:

  • 验证器训练:是否能够利用训练得到的动作验证器(action verifier)来替代 oracle verifier,以提升 VLA 的稳定性?
  • 合成数据扩展:能否构建大规模合成数据来训练验证器,从而推动下游任务的性能提升?
  • 实际部署可行性:如何设计高效的算法与系统,使 test-time scaling 在真实机器人上实现低延迟、可扩展的部署?

方法概述

阶段一・动作验证器训练



研究者首先利用机器人数据集,用 VLA 为每个状态采样 N 个候选动作,并通过聚类将其压缩为 K 个具有代表性的动作。随后,基于候选动作与真实动作(ground truth action) 的RMSE 差异构造合成偏好数据(synthetic action preference dataset),并用其微调一个基于 VLM 的动作验证器 (VLM-based verifier),赋予模型对动作优劣的判别能力。该验证器的训练损失函数遵循 Bradley-Terry 模型,并在此基础上加入了对偏好强度(preference levels)的修正项。



阶段二・推理阶段的计算扩展



在实际部署中,系统会根据任务指令和环境观测,用 VLA 采样 N̂ 个初始动作。研究者对这些动作的平移与旋转部分拟合高斯分布,并通过多数投票(majority voting)确定抓取器的开合状态,构建出高效的动作分布。由此便可以在几乎不增加计算开销的前提下,快速采样出 K̂ 个候选动作。最后,利用在阶段一中训练好的 VLM 动作验证器,对这些候选动作进行评估和排序,从中挑选出最优动作执行。

实验结果



研究表明将 VLA 模型与 RoboMonkey 结合可以带来显著性能提升:

  • 在真实世界的 out-of-distribution tasks 上 + 25%
  • 在 in-distribution SIMPLER 环境上 + 9%
  • 在 LIBERO-Long benchmark+7%

这些结果表明,RoboMonkey 不仅提升了整体成功率,还能在部署时有效缓解以下关键问题:

  • 抓取不精准
  • 任务推进失败
  • 碰撞问题



扩展合成数据



实验结果表明,扩展合成数据集规模对验证器性能有显著提升作用。随着数据规模逐步增加,RoboMonkey 验证器的准确性呈近似对数线性(log-linear)增长,并在 SIMPLER 环境上的成功率显著提高。

高效推理部署



为了让 Test-Time Scaling 在真实系统中具备可部署性,研究团队在 SGLang 之上实现了一个专用的VLA serving 引擎。该引擎支持高速的 VLA 动作重复采样,并通过高斯扰动高效地构建动作分布(action proposal distribution)。这一系统优化显著降低了推理阶段的开销。

此外,从系统架构的角度来看,RoboMonkey 在相同的延迟约束(latency target)下,如果配备了更大容量的高带宽存储器(HBM),GPU 就能够支持更高的吞吐量(throughput),从而进一步提升机器人基础模型的泛化能力。

总结

本文的主要贡献可总结如下:

  • 提出具身推理缩放定律—— 实验证明,在多个 VLA 模型中,动作误差与采样数量之间呈现幂律关系。
  • 可扩展的验证器训练流程—— 构建了一条自动生成动作偏好数据的方法,并基于此提出了训练 VLM 动作验证器的框架。
  • 验证 Test-Time Scaling 的有效性—— 证明了所提出的 test-time scaling 框架能够在无需重新训练 VLA 的前提下显著增强 VLA 模型的表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的鱼儿
2026-03-25 12:10:03
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

坠入二次元的海洋
2026-03-26 16:00:05
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

揽星河的笔记
2026-03-26 19:04:02
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

深度报
2026-03-25 22:47:08
约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

北青网-北京青年报
2026-03-26 20:51:06
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

历史小破站
2026-03-19 04:05:03
香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

冷紫葉
2026-03-26 16:33:29
巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

通文知史
2026-03-24 08:35:03
开分8.5,国内不火,全球却杀疯了

开分8.5,国内不火,全球却杀疯了

独立鱼
2026-03-25 21:24:07
2026-03-26 22:36:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
数码
本地
手机
公开课

艺术要闻

哪一座桥不是风景?

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版