网易首页 > 网易号 > 正文 申请入驻

二元成功率已经过时!PRM-as-a-Judge是你需要的具身操作评测框架

0
分享至



随着机器人操作从短程、单步技能逐步走向长程、富接触、需要持续协调与恢复能力的复杂任务,传统以二元成功率为核心的评测方式开始暴露出明显局限。它能够回答 “任务是否完成”,却难以回答 “策略推进到了哪里”“执行过程是否高效稳定”“失败究竟发生在什么阶段”。

围绕这一问题,来自中国科学院自动化研究所、北京大学和智源研究院等机构的研究人员提出PRM-as-a-Judge:不再只根据终局结果评价策略,而是从轨迹视频中恢复任务相关的连续进度信号,并据此对执行过程进行细粒度审计。该框架的核心包括任务条件化的进度势能、OPD 三层指标体系,以及用于验证评估器细粒度分辨能力的 RoboPulse 基准。



  • 论文标题:PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing
  • 论文链接:https://arxiv.org/abs/2603.21669
  • 网页链接:https://prm-as-a-judge.github.io/
  • 代码链接:https://github.com/Yuheng2000/PRM-as-a-Judge
  • Benchmark 链接:https://huggingface.co/datasets/yuheng2000/RoboPulse

1. 为什么二元成功率不足以评估长程任务?

在现有具身智能研究中,策略评估仍然高度依赖二元成功率。对于短程、结构清晰的任务,这一指标能够提供一种直观的比较方式;但当任务逐渐演化为长程、多阶段、强交互的复杂操作时,二元成功率所能提供的信息开始明显不足。

这种不足主要体现在两个方面。

  • 首先是分辨率不足。二元标签只能回答 “最终是否成功”,却无法刻画轨迹内部的关键差异。一个已经接近完成、却在最后阶段失手的轨迹,与一个在早期就明显偏离目标的轨迹,往往都会被统一记为失败。这样一来,不同方法在任务推进深度上的真实差异就被压缩掉了。
  • 其次是诊断能力有限。成功率无法回答机器人是 “如何成功” 的,也无法解释它 “为何失败”。一次平稳高效的成功执行,与一次依赖多次冗余修正后才勉强完成的轨迹,在结果层面可能完全相同;同样,停滞、回退、恢复失败等过程特征,也不会在最终标签中留下痕迹。对于需要进一步定位瓶颈、优化策略行为的研究而言,这种信息缺失会直接限制后续分析的深度。

因此,对于长程任务来说,决定策略优劣的关键已经不再只是终点上的 “成功” 与 “失败”,而是执行过程中究竟推进到了哪一阶段、推进得是否稳定,以及失效究竟发生在什么位置。



相同的二元标签下隐藏着截然不同的物理执行逻辑。失败可能发生在任务的任何阶段(从 5% 到 99% 进度),而成功亦有 “平稳高效” 与 “反复修正” 之分 。

2. 从结果判定到过程级评测

为了恢复被二元标签压缩掉的轨迹信息,作者将评测重心从 “结果” 转向 “过程”。在真实物理场景中,研究者通常拿不到模拟器中的特权信息,例如精确位姿、接触力或完整状态变量。

因此,这项工作没有把评测建立在这些理想化信号上,而是选择了一条更具现实意义的路径:直接根据视觉状态的演化来刻画任务进度。

具体来说,作者为给定任务条件下的每个状态分配一个位于 [0,1] 区间上的进度势能 Φ。一旦有了这个势能表示,一条原本只对应 “成功/失败” 标签的执行轨迹,就可以被表示为一条随时间变化的连续进度曲线。这样,研究者看到的就不再只是一个终点结果,而是一条可比较、可分解、可诊断的过程信号:轨迹推进得有多深,推进过程中是否反复回退,哪些阶段容易停滞,都可以被显式刻画出来。

3. 一个合格的密集评测器,需要满足什么条件?

在这一框架下,作者进一步把 “密集评测” 形式化为两个核心性质。

第一个是macro-consistency。它要求评测结果在时间上具有可加性和路径一致性:同一段执行过程,无论如何切分为更短的时间片,其累积进度都应保持一致。换句话说,评测结果不能随着轨迹分段方式的改变而漂移。

第二个是micro-resolution。它要求评测器能够识别细粒度、任务相关的状态变化,而不是只对粗粒度视觉差异做出反应。

作者进一步指出,在其采用的 potential-based formulation 中,只要评测器能够在固定任务上下文下,为每个状态赋予一个可比较的标量进度值,并将任意时间区间上的进度定义为两个状态势能的差值,那么宏观上的时间加性与分段不变性就可以直接得到保证。PRM judge 在这里被作者视为这种表述的一个自然且实用的实现:它通过任务条件化的标量进度输出,为 OPD 指标提供统一的进度坐标。

相比之下,许多依赖相对比较或相似度启发式的方法,往往并不显式对应这样一个全局一致的势能表示,因此在不同时间段、不同视角或不同比较基准下,更容易出现尺度漂移或路径相关的问题。至于 micro-resolution,则不能仅由这种结构性定义自动推出,而仍需通过专门的诊断基准进行检验。

4. OPD:把一条轨迹拆成三层可解释信号

在进度势能 Φ 的基础上,作者构建了OPD(Outcome–Process–Diagnosis)指标体系,用于把一条复杂执行轨迹分解为三个层次的审计结果。Outcome 层回答 “推进到了哪里”,Process 层回答 “推进得怎么样”,Diagnosis 层回答 “如果没做好,问题主要出在哪里”。这也是 PRM-as-a-Judge 的核心输出形式。

在Outcome层,作者采用 MC 和 MP 两个指标描述推进深度。其中,MC(Milestone Coverage)用于刻画轨迹到达了哪些关键里程碑,MP(Max Progress)则记录整段轨迹曾达到的最高连续进度值。它们共同回答的是:这条轨迹究竟走到了什么位置。

在Process层,作者定义了 PPL(Path-weighted Progress Length),用于衡量推进是否高效、是否存在明显冗余。PPL 越高,说明轨迹越接近单调推进、回绕和反复修正越少。它对应的是 “同样推进到某个位置,不同策略的路径质量是否一致” 这一问题。

在Diagnosis层,作者使用 CRA 和 STR 刻画两类常见失效机制。CRA(Cumulative Regret Area)衡量轨迹相对于历史最佳状态的累计回退程度;STR(Stagnation Ratio)则衡量轨迹中 “几乎没有任务相关推进” 的时间占比,用于反映犹豫、等待或停滞。与单一成功率相比,OPD 的价值不在于 “多报几个数”,而在于它把执行过程重写为结构化、可诊断的行为信号。



OPD 将一次执行分解为三层信号:Outcome 刻画推进深度,Process 刻画执行质量,Diagnosis 刻画失败机制。五个核心指标 MC、MP、PPL、CRA 与 STR 分别对应阶段可达性、最大进度、路径效率、回退代价与停滞比例。

5. RoboPulse:评估器是否真的具备细粒度分辨能力?

有了理论上的性质约束和过程级指标之后,接下来的关键问题是:评估器是否真的能看懂微小但任务相关的物理变化?

为此,作者构建了RoboPulse。论文明确指出,在该框架下,macro-consistency 由势能形式在结构上保证,而 micro-resolution 则需要通过受控实验进行检验;RoboPulse 正是围绕这一点设计的诊断基准。

RoboPulse 将进度评测转化为一个成对判断问题:给定来自同一执行轨迹的两个状态,评估器需要判断后一个状态相对于前一个状态,是 “前进” 还是 “回退”。这种设计不依赖绝对进度标定,而是直接考察更本质的能力:当物理变化很细微时,评估器是否仍能稳定识别出进度方向。作者在构建基准时,先用关键帧把轨迹划分为语义一致的阶段,只保留进度单调的区间,过滤掉近静止、往复振荡和难以标注的片段,再在这些区间内按 Small、Medium、Large 三个 hop 范围采样样本。

从规模上看,RoboPulse 包含1800个成对进度判断样本,这些样本来自1622条执行轨迹、覆盖816个任务,并汇集了7个数据源。基准同时覆盖真实机器人、仿真、UMI 采集和人类第一视角等多种设置,并在不同相对进度跨度上系统考察评估器的分辨能力。



RoboPulse 涵盖了多个数据源和不同的本体型号,用于评估 judge model 的微观进度分辨能力。

在 RoboPulse 上,作者将 PRM-based judges 与两类常见替代方案进行比较:一类是基于 CLIP 的视觉相似度评测方法,另一类是通用多模态基础模型,如 Gemini、GPT-5.2。实验结果显示,PRM 在细粒度进度判断上整体表现更强。以 Robo-Dopamine 为例,其总体准确率达到 0.83;Gemini 为 0.66,Qwen3-VL-8B 为 0.59,而多种 CLIP 变体整体落在 0.46–0.59 区间。

更关键的是,在最具挑战性的 Small-hop 区间,优势会进一步扩大。Robo-Dopamine 的平均准确率达到 0.80;另外两个 PRM judge 也达到 0.61 和 0.63。相比之下,Gemini 在该区间为 0.54,GPT-5.2 为 0.47。论文据此指出,当比较尺度变得足够细时,粗粒度语义线索的帮助会下降,而真正与物理过程相关的进度监督会体现出更明显优势。



在 RoboPulse 基准上,PRM-based judges 在不同相对进度跨度下均表现出更强的分辨能力,在最困难的 Small-hop 区间优势尤为显著,证明其对细微、任务相关的物理状态变化具备极高的敏感性。

6. 用 OPD 重新审视真实策略轨迹

在验证了 judge 的 micro-resolution 之后,作者进一步将 PRM-as-a-Judge 应用于 RoboTwin 2.0 ,并选择了 5 类代表性的 policy 模型(DP、ACT、RDT、pi0、OpenVLA-OFT),在多个长程操作任务上统一评测,每个策略 - 任务组合进行 50 次 rollout。

6.1 失败究竟发生在什么阶段?

Outcome 层最直接的价值,是把 “失败” 进一步分解为不同阶段的失败。以 Blocks Ranking RGB 为例,大多数策略在早期阶段的可达性都不低:MC@25 落在 84–100 区间;但到了最终完成阶段,MC@100 只剩 0–8。这说明大量 rollout 并不是 “一开始就不会”,而是在已经取得相当推进后,集中失效在末段阶段。

更进一步,OPD 还能区分 “同样是零成功率” 但物理含义完全不同的策略。例如在同一任务上,pi0 的 MC@75 为 40,而 OpenVLA-OFT 的 MC@75 仅为 6,尽管两者的 MC@100 都接近于零。前者的失败通常更接近终点,后者则更容易在中早期阶段提前掉队。这类差异,在传统成功率下是不可见的。



阶段性可达性揭示了 “最后一公里” 的差距,并将早期崩溃与近乎完全的故障区分开来。

6.2 成功与成功,并不等价

为了评价 policy model 在成功条件下的执行质量,作者选取了 Handover Mic 任务上成功的样本进行了分析。结果显示,DP 在成功样本中的 PPL 为 94.9,高于若干对比方法;同时其 CRA 仅为 0.26,也显著低于 OpenVLA-OFT 的 2.55。这意味着,DP 一旦进入成功轨道,往往能够以更高效率、更低回退代价完成任务。

但这并不意味着它在总体上最可靠。结合 Outcome 层结果可以看到,DP 在 Handover Mic 上的 MC@100 只有 44,而另外一些策略则达到 98 甚至 100。论文据此指出:成功条件下的高质量执行,不必然等于更高的总体可靠性。 有些方法在 “成功时” 做得非常漂亮,但它们在失败时,完全没有从错误中恢复的能力。



成功条件下的执行质量图:在成功样本内部,不同策略仍然可能呈现显著不同的执行质量。路径效率与回退代价共同表明:成功并不自动意味着高质量成功,高精度执行与整体可靠性也并不总是一致。

6.3 “失败” 也有不同机制

Diagnosis 层则把原本统一的失败标签,进一步拆解为不同的失效机制。以 Place Bread Basket 任务为例,OpenVLA-OFT 的 MP 达到 92.6,说明它常常能够推进到相当靠后的位置;但其 CRA 达到 26.3,显示出明显的晚期回退和恢复代价。与之相对,ACT 在该任务上的 MP 为 73.1,而 STR 达到 65.4,更接近一种早期停滞主导的失败模式。

类似地,在 Handover Mic 上,DP 的失败更偏向高停滞,即 STR 为 57.2;OpenVLA-OFT 则表现为更高的回退和较低效率,其 PPL 为 66.2,CRA 为 5.66。作者据此提出,OPD 给出的并不是简单的 “好 / 坏” 排序,而是一种可复现的 failure fingerprint:不同策略家族会在 OPD 空间中表现出相对稳定的失效画像,这种画像能够为后续改进提供更具针对性的方向。



失败指纹图:在失败样本上,CRA 与 STR 将 failure 从单一终局标签进一步拆解为不同机制:有些策略更接近晚期失稳与明显回退,有些策略则更表现为长时间停滞和推进不足。相同的 “失败” 标签背后,可能对应完全不同的原因。

6.4 差异体现在指标联合画像中

作者也将 OPD 框架应用到RoboChallenge Table30公开榜单比较中,使用 Robo-Dopamine-2.0-8B-Preview 作为评估器,对不同模型在真实执行中的轨迹特征进行统一分析。

从 OPD 指标下的 RoboChallenge 总榜来看,可以清楚地发现:真正拉开方法差距的,往往不只是 “最后是否完成”,而是推进深度、执行质量与失败形态这几类信号的共同作用。在头部模型中,DM0 的优势并不只是更常完成任务,而是同时体现在推进深度和执行质量上:它不仅拥有最高的 Avg MC@100(62.0),也同时在 Avg MP(70.3)和 Avg PPL(31.2)上领先。这说明它的领先并不是单纯依赖更高的终局完成率,而是同时来自更深的平均可达性和更高的执行效率。

相比之下,GigaBrain-0.1 虽然在 Avg MP 上几乎与 DM0 持平,但 Avg PPL(26.2)明显更低,说明它虽然能够推进到接近的位置,路径质量却相对较差。因此,OPD 所刻画的并不只是谁成功更多,而是谁的成功更接近高效、平稳、少修正的成功。



OPD 指标下的 RoboChallenge Table30 总榜:DM0 拥有最高的 Avg MC@100,Avg MP 和 Avg PPL,其成功来自更高水平的推进深度和执行质量;GigaBrain-0.1 则呈现出 “最后一公里” 差距。详细指标见官方博客:https://prm-as-a-judge.github.io/leaderboard.html

与之相比,GigaBrain-0.1 则呈现出一种更典型的 “最后一公里” 差距。它的 Avg MP 达到 70.1,与 DM0 的 70.3 几乎相同,但 Avg MC@100 却只有 51.7,相比 DM0 的 62.0 明显更低,说明两者并不是在 “能否把轨迹推进到高进度区间” 上存在本质差异,而是在 “能否把已经获得的高进度稳定转化为最终完成” 上拉开了距离。把 Avg MP 和 MC@100 一起纳入分析后就会发现,GigaBrain-0.1 在末段收束上仍然存在缺口。

值得注意的是,回退、停滞与推进深度不能被割裂地理解。RoboChallenge 中 RDT-1B 的 Avg MC@100 只有 15.0,但 Avg CRA 却仅为 5.3,是总榜中最低的一档;这并不意味着它的执行更平滑,而更说明其整体推进深度本就有限,因此较少出现推进到后期再明显回退的情况。

相对地,wall-oss-v0.1 的 Avg MP 仍达到 59.7,说明它并非完全缺乏推进能力,但其 Avg STR 高达 41.2,则显示出更明显的停滞和低效推进。低回退或中等进度本身都不足以说明执行更强或更顺;OPD 的价值不在于提供彼此孤立的若干指标,而在于通过 Outcome、Process 与 Diagnosis 三层信号的联合刻画,更完整地揭示轨迹的推进状态、执行质量与失效机制。



9 个模型在 RoboChallenge Table30 上的整体表现:OPD 指标提供了联合而非孤立的轨迹画像,通过 Outcome、Process 与 Diagnosis 三层信号的统一刻画,揭示模型走到了哪里、走得如何,以及问题主要出现在什么阶段。

7. 交互式轨迹审计:把指标变化和物理行为对齐

除了论文和基准,项目博客还提供了交互式轨迹分析界面。用户可以在页面中同步查看视频播放、进度曲线以及 MC、MP、PPL、CRA、STR 等核心指标,并随着时间轴拖动观察它们如何实时更新。博客将这一模块定位为单条轨迹的完整时间审计工具:进度上升、回退和停滞,不再只是抽象曲线,而能和具体物理行为逐帧对应起来。

读者可进一步访问项目主页与博客中的交互式 Demo,查看单条轨迹的逐帧审计结果https://prm-as-a-judge.github.io/blog.html

8. 总结:从 “是否完成” 走向 “如何完成”

PRM-as-a-Judge 的意义,不只是对 success rate 做一次补充,而是把机器人评测从终局判定推进到了过程刻画。借助任务条件化的进度势能、OPD 三层指标体系以及 RoboPulse 的细粒度验证,这项工作把原本被压缩为单一标签的执行轨迹,重新表示为可解释、可比较、可诊断的过程信号。

对于越来越长程、越来越复杂的具身操作任务来说,单一二元标签已经很难完整反映模型行为的真实差异。相比只比较 “做没做成”,过程级审计更关心 “推进到了哪里”“成功得是否高效稳定”“失败主要由什么机制导致”。从这个意义上说,PRM-as-a-Judge 提供的不只是一个新指标系统,更是一种更适合长程机器人任务的评测视角。

该团队表示:「我们也呼吁更多 benchmark 组织者与模型开发者,在提交 leaderboard 结果的同时公开执行视频与 rollout 证据,让机器人评测从 “只看分数” 进一步走向 “可回放、可核查、可诊断”。只有当轨迹本身是开放和透明的,我们才真正有机会比较不同策略在推进深度、执行质量与失败模式上的真实差异,而不仅仅停留在最终是否完成任务这一单点结论。

我们也期待与更多基准团队和研究者协作,把这种面向过程的稠密审计扩展到更广泛的机器人任务中,共同建立一个跨 benchmark、可复核、可演进的透明评测生态。评测不应只是终点处的一次裁决,而应成为理解机器人行为、诊断系统能力边界、推动社区共同进步的基础设施。」

作者简介

本文第一作者冀昱衡,为中国科学院自动化研究所博士生,研究方向为具身智能与基础模型,已在 NeurIPS、CVPR、AAAI、ACM MM 等国际顶级会议上发表多篇论文,通讯作者为仉尚航助理教授和郑晓龙研究员。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
埃尔多安罕见放狠话:巴基斯坦若不介入,土耳其或直接踏入以色列

埃尔多安罕见放狠话:巴基斯坦若不介入,土耳其或直接踏入以色列

精彩启程
2026-04-14 12:41:43
两分钟内连震两次,中国地震台网:四川内江市资中县发生3.9地震

两分钟内连震两次,中国地震台网:四川内江市资中县发生3.9地震

环球网资讯
2026-04-13 17:20:19
这游戏把"开高达"做成了真事,日本玩家众筹140%求它别死

这游戏把"开高达"做成了真事,日本玩家众筹140%求它别死

像素与芯片
2026-04-13 13:15:19
斯诺克世锦赛资格赛审判轮对阵出炉!9名中国球员全力冲击正赛

斯诺克世锦赛资格赛审判轮对阵出炉!9名中国球员全力冲击正赛

莼侃体育
2026-04-14 11:36:36
萝莉岛大雷出现!比想象中炸裂,牵扯多国总统,难怪爱泼斯坦必死

萝莉岛大雷出现!比想象中炸裂,牵扯多国总统,难怪爱泼斯坦必死

离离言几许
2026-02-02 21:16:35
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
6.8万紫貂被扯坏后续:女子丢工作后道歉,黑历史被扒,全网社死

6.8万紫貂被扯坏后续:女子丢工作后道歉,黑历史被扒,全网社死

小徐讲八卦
2026-04-12 15:43:13
没想到,张雪机车夺冠8天后,台湾馆长竟因一特殊举动口碑暴涨

没想到,张雪机车夺冠8天后,台湾馆长竟因一特殊举动口碑暴涨

梨花黛娱
2026-04-13 15:43:12
中国跳水队公布世界杯总决赛名单:陈芋汐、陈艺文在列

中国跳水队公布世界杯总决赛名单:陈芋汐、陈艺文在列

懂球帝
2026-04-13 22:48:15
芒果台踩雷!赵子琪被淘汰后直播开撕,她的过往连张朝阳都忌惮

芒果台踩雷!赵子琪被淘汰后直播开撕,她的过往连张朝阳都忌惮

小徐讲八卦
2026-04-12 06:23:01
水到渠成的好运!4月下旬赚钱速度越来越快,越来越轻松的3生肖

水到渠成的好运!4月下旬赚钱速度越来越快,越来越轻松的3生肖

毅谈生肖
2026-04-14 10:17:01
“新型啃老”已来了,比“传统啃老”更严重,很多父母还没认识到

“新型啃老”已来了,比“传统啃老”更严重,很多父母还没认识到

芭比衣橱
2026-04-14 11:43:20
勒温:利马拽我头发被罚下场?规则又不是我制定的,我不记仇

勒温:利马拽我头发被罚下场?规则又不是我制定的,我不记仇

懂球帝
2026-04-14 05:27:14
77年李德生探望叶帅,席间叶帅突然提点:你去看看你们的老政委

77年李德生探望叶帅,席间叶帅突然提点:你去看看你们的老政委

掠影后有感
2026-04-14 10:04:25
第三波来了!多架专机直飞中国,东南亚11国选边站,中方已致贺电

第三波来了!多架专机直飞中国,东南亚11国选边站,中方已致贺电

书纪文谭
2026-04-13 16:06:20
三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

安珈使者啊
2026-04-14 09:30:18
粟裕那一枪,到底是打歪了,还是故意打歪的

粟裕那一枪,到底是打歪了,还是故意打歪的

鹤羽说个事
2026-03-30 22:03:41
伊朗军方:若伊朗港口受威胁 波斯湾任何港口都不安全

伊朗军方:若伊朗港口受威胁 波斯湾任何港口都不安全

新京报
2026-04-13 15:25:21
杨贵妃没有死,被安倍仲麻吕带到了日本,生下了安倍晴明(上)

杨贵妃没有死,被安倍仲麻吕带到了日本,生下了安倍晴明(上)

青山易观
2024-09-23 23:22:48
96年,军委给清贫度日的李敏副军级待遇,李:父母是父母,我是我

96年,军委给清贫度日的李敏副军级待遇,李:父母是父母,我是我

旧史新谭
2026-04-14 01:45:21
2026-04-14 14:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12756文章数 142626关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

房产
健康
旅游
艺术
军事航空

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

干细胞抗衰4大误区,90%的人都中招

旅游要闻

申然:塞班军舰岛,一眼沦陷的蓝绿秘境

艺术要闻

这位美女画家的夏天竟如此梦幻

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版